Analyse des donn ees de consommation electrique ...€¦ · La pr esente version de mon rapport de stage est pass ee par le ltre de la clause de con - dentialit e que j’ai sign

Analyse des données de consommationélectrique ferroviaire SNCF

Exploration, détection d’anomalies et classification non supervisée

Matteo TacchiStage de fin de Master & Projet d’Ingénieur en Laboratoire

7 avril 2016 - 31 août 2016

Remerciements

Je souhaiterais d’abord remercier Mohammed El-Rhabi, Responsable Académique du DépartementIMI (Ingénierie Mathématique et Informatique), de m’avoir mis en relation avec l’équipe Data duGrettia, me permettant ainsi de trouver un stage intéressant, professionnalisant, et satisfaisantles contraintes de ma Formation Complémentaire Intégrée (FCI).

Je remercie également mon tuteur Étienne Côme, Chercheur en analyse de données au labo-ratoire Grettia de l’Ifsttar, pour son soutien, ses conseils et les méthodes qu’il a su m’apportertout au long de ce stage. Notamment, ses consignes et indications en termes de bibliographie,d’analyse, de traitement et d’interprétation concrète des données ont été d’une aide très précieuse.

Merci aussi à Patrice Aknin, Directeur Scientifique SNCF, Bogdan Vulturescu, Chef de Pro-jet SNCF, et Emmanuel Coste, Responsable Système d’Information SNCF Énergie, de m’avoirfourni l’accès aux données, de m’avoir présenté les aspects techniques du problème, et de m’avoiraccompagné dans la réalisation des objectifs de ce stage.

Enfin, je voudrais remercier l’ensemble des stagiaires, doctorants et chercheurs du Grettiapour l’ambiance de travail et les conseils qu’ils m’ont donnés, en particulier Mohamed Khalil El-Mahrsi, Post-doctorant en analyse de données, qui m’a accueilli dans son bureau et m’a apportéson aide à plusieurs reprises. Merci à toute l’équipe du Grettia de m’avoir accueilli parmi eux.

Note

La présente version de mon rapport de stage est passée par le filtre de la clause de confi-dentialité que j’ai signée avec la SNCF, qui limite la diffusion des données d’énergie que j’aiexploitées, ainsi que des informations qui leur sont reliées. Par conséquent, certaines des figuresprésentes dans le rapport complet ont ici été retirées. Également, je n’ai laissé que les commen-taires généraux et les considérations liées à la méthodologie, les interprétations quantitatives desdonnées étant, elles aussi, confidentielles. En contrepartie, le présent travail peut être librementpartagé avec les élèves de l’École des Ponts désireux de le parcourir, et également avec mes futurscollaborateurs / embaucheurs qui souhaiteraient avoir une idée du travail que j’ai effectué dansle cadre de ce stage.

i

Table des matières

Remerciements i

Table des matières ii

Table des figures iv

Introduction 1

1 Contexte 21.1 La problématique énergétique de la SNCF . . . . . . . . . . . . . . . . . . . . . . 2

1.1.1 Le premier consommateur d’électricité en France . . . . . . . . . . . . . . 21.1.2 Réduire la consommation énergétique . . . . . . . . . . . . . . . . . . . . 31.1.3 Le programme Smart grids . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 L’entreprise : Ifsttar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Quelques chiffres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.2 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3 Organisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2.4 Le laboratoire : Grettia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Le comptage de l’énergie consommée par les trains . . . . . . . . . . . . . . . . . 71.3.1 Les compteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3.2 La consommation énergétique des trains . . . . . . . . . . . . . . . . . . . 71.3.3 Autres enjeux de l’exploration des données de comptage d’énergie . . . . 9

2 Les outils théoriques et leur application aux données d’énergie en général 92.1 partitionnement par K-moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.1 Approche heuristique des k-moyennes . . . . . . . . . . . . . . . . . . . . 102.1.2 Application au partitionnement . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Classification Ascendante Hiérarchique (C.A.H.) . . . . . . . . . . . . . . . . . . 132.2.1 Principe de la C.A.H. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2.2 Critère d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 État de l’art sur l’analyse de données d’énergie . . . . . . . . . . . . . . . . . . . 182.3.1 Méthodologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.3.2 Comparaison des méthodes de clustering appliquées aux données d’énergie 19

3 Exploration et prétraitement 233.1 Signification des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Agrégation géographique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2.1 Les outils techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.2.2 Mise en forme des données . . . . . . . . . . . . . . . . . . . . . . . . . . 253.2.3 Construction d’un Point Kilométrique (P.K.) . . . . . . . . . . . . . . . . 26

3.3 Détection d’erreurs et rééchantillonnage . . . . . . . . . . . . . . . . . . . . . . . 273.3.1 Détection d’erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Visualisation en fonction du temps . . . . . . . . . . . . . . . . . . . . . . 283.3.3 Rééchantillonnage spatial de l’énergie . . . . . . . . . . . . . . . . . . . . 29

ii

4 Exploitation des données 314.1 Visualisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1.1 Visualisation en fonction de l’espace . . . . . . . . . . . . . . . . . . . . . 314.1.2 Diagrammes en bôıtes successifs . . . . . . . . . . . . . . . . . . . . . . . 32

4.2 Partitionnement de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.1 Algorithme K-Moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.2.2 K-Moyennes sur des histogrammes . . . . . . . . . . . . . . . . . . . . . . 374.2.3 Classification Ascendante Hiérarchique (CAH) . . . . . . . . . . . . . . . 38

Conclusion 42

iii

Table des figures

1 Répartition de la facture énergétique du Groupe SNCF [1] . . . . . . . . . . . . . 22 Les différents sites de l’Ifsttar [4] . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 L’équipe Grettia en 2015 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Schéma de l’électrification des trains en courant alternatif triphasé . . . . . . . . 85 Illustration graphique de l’algorithme k-moyennes [5] . . . . . . . . . . . . . . . . 106 Illustration de la méthode du coude issue de [5] pour déterminer le nombre de

clusters à construire dans la méthode k-moyennes . . . . . . . . . . . . . . . . . . 137 Description d’une hiérarchie [7] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 Illustration du fonctionnement de la C.A.H. [8] . . . . . . . . . . . . . . . . . . . 159 Deux groupes que le saut minimal regroupera aisément, tandis que le saut maximal

les discernera mieux [9] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1510 Méthodologie appliquée à l’analyse des données de consommation électrique dans

[11] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1911 schéma de l’algorithme follow-the-leader ; le seuil (threshold) est calculé par essai-

erreur [14] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2112 Comparaison des méthodes de clustering présentées dans [14] . . . . . . . . . . . 2213 Comparatif des fonctionnements de Hadoop et Spark [20] . . . . . . . . . . . . . 2414 Carte de la ligne Montpellier-Paris avant détection d’erreurs . . . . . . . . . . . . 2615 Carte de la ligne Montpellier-Paris après détection d’erreur . . . . . . . . . . . . 2816 Point kilométrique en fonction du temps (en minutes) sur la ligne Nancy-Paris . 2917 Schéma du rééchantillonnage spatial de l’énergie . . . . . . . . . . . . . . . . . . 3018 Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris avant

avril 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3119 Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris après

avril 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3220 Diagrammes en bôıte décrivant le profil énergétique de la ligne Nancy-Paris avant

avril 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3321 Diagrammes en bôıte décrivant le profil énergétique de la ligne Montpellier-Paris

(en haut : E+ ; en bas E−) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3322 Diagrammes en bôıte décrivant le profil énergétique de la ligne Paris-Marseille (en

haut : E+ ; en bas E−) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3423 Courbe décrivant l’erreur WSSSE en fonction du nombre de clusters pour les k-

moyennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3524 Représentation des centröıdes associés aux trois clusters par k-moyennes . . . . . 3625 Profils énergétiques des données Nancy-Paris par cluster (k-moyennes) . . . . . . 3626 Représentation des centröıdes associés au partitionnement des histogrammes . . . 3727 Dendrogramme obtenu par CAH avec saut minimum pour les données d’énergie

Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3928 Dendrogramme obtenu par CAH avec saut maximum pour les données d’énergie

Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3929 Profils énergétiques des données Nancy-Paris par cluster (CAH - saut maximum) 4030 Dendrogramme obtenu par CAH avec lien moyen pour les données d’énergie

Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4131 Dendrogramme obtenu par CAH avec distance de Ward pour les données d’énergie

Nancy-Paris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4132 Profils énergétiques des données Nancy-Paris par cluster (CAH - distance de Ward) 42

iv

Introduction

Ce stage, proposé par le laboratoire Grettia de l’Ifsttar, répond aux besoins particuliers de maformation. En effet, ce n’est qu’en septembre 2015, après un cursus L3 - M1 de mathématiquesà l’ENS de Lyon, que j’ai intégré l’École des Ponts, en FCI au Département IMI. J’y ai suiviparallèlement la formation du M2 ANEDP, et des cours de deuxième année. Après deux stagesde recherche fondamentale en 2014 et 2015, je cherchais une première expérience du travail enentreprise et de l’ingénierie mathématique. De plus, afin de respecter le calendrier de ma for-mation, il me fallait concilier le début de mon stage de Master et la fin de mes cours d’IMI,donc commencer à mi temps et à proximité de l’École. Connaissant mon intérêt pour l’analysede données, M.El-Rhabi m’a donc transmis une offre de stage au Grettia, à laquelle j’ai postulé.

Ce stage est le résultat d’une collaboration entre la SNCF et l’Ifsttar, et s’inscrit dans uneapproche semblable à celles du programme � Smart grids � de la SNCF (utilisation de l’analysede données pour modéliser un réseau de transport). D’une durée de cinq mois (à mi temps lesdeux premiers mois), le stage avait pour objectif d’effectuer un premier traitement des donnéesde comptage d’énergie produites par les nouveaux capteurs embarqués installés sur les trains,afin de dégager différents profils de consommation, et d’établir une première cartographie de laconsommation des trains.

Afin de comprendre les enjeux de ce travail sur les données de comptage d’énergie des trains,il est important de connâıtre le contexte qui a mené à la formulation de ce problème. Ce contexte,ainsi que l’entreprise au sein de laquelle j’ai travaillé, seront présentés en première partie de rap-port.

Ensuite, une revue des méthodes d’analyse de données et de leurs application aux donnéesd’énergie semble assez indispensable, notamment pour présenter les outils théoriques utilisés dansla suite (partitionnement de données par méthode des k-moyennes et classification ascendantehiérarchique), ainsi que dresser un état de l’art sur leur application aux données d’énergie. Cespoints feront l’objet d’une deuxième section.

Une fois énoncé le contexte et présentés les outils de l’analyse des données d’énergie, un pre-mier contact avec les données est possible. Afin de prévenir les éventuelles erreurs de mesureou d’agrégation des données, un profond prétraitement est nécessaire : exploration des données,détection d’erreurs et d’anomalies, construction d’abscisse curviligne sur chaque mission, et re-dimensionnement des échantillons seront abordés en troisième section.

Après avoir effectué les prétraitements nécessaires, une analyse en profondeur est possible. Lapremière piste à explorer pouvait être de visualiser géographiquement les données de consomma-tion d’énergie active et réactive, et éventuellement l’énergie renvoyée dans le réseau au freinage,au moyen de graphes et de diagrammes en bôıtes. Enfin, pour répondre aux enjeux de pilotagede la facture électrique de la SNCF, un partitionnement (clustering) des données de comptaged’énergie, pour chaque mission, était un incontournable de ce stage. Les résultats et profils deconsommation discernés seront présentés en dernière partie.

1

1 Contexte

Ce stage répond à la problématique énergétique de la SNCF, en proposant une premièreanalyse, au sein de l’Ifsttar, des données de comptage énergétiques fournies par les capteursembarqués. Je vais donc présenter la problématique générale posée par la SNCF, ainsi que l’en-treprise vers laquelle elle s’est tournée pour analyser ses données. Enfin, j’expliquerai plus parti-culièrement les tenants et aboutissants du comptage de l’énergie consommée par les trains.

1.1 La problématique énergétique de la SNCF

1.1.1 Le premier consommateur d’électricité en France

L’alimentation de la traction ferroviaire représente à elle seule 90% de la consommationénergétique de la SNCF (le reste concerne l’exploitation des infrastructures), et 80% de cetteénergie est d’origine électrique : cela fait de la SNCF le premier consommateur d’électricité enFrance, avec une consommation annuelle de 7 TWh, ce qui représente 1.5% de la consommationnationale, avec un coût de 650 millions d’euros par an.

Figure 1 – Répartition de la facture énergétique du Groupe SNCF [1]

De plus, la SNCF prévoit un accroissement des consommations énergétiques lié à la croissancede l’activité des TER et à l’ouverture de nouvelles LGV 1. Enfin, en considérant la hausse desprix de l’électricité (environ 5% par an d’après la Commission de Régulation de l’Énergie), lafacture électrique de la SNCF pourrait s’élever, d’ici 2022, à 1.3 milliard d’euros [2],[3].

1. Ligne à Grande Vitesse

2

1.1.2 Réduire la consommation énergétique

Vu ce constat, la SNCF s’est fixé pour objectif, en novembre 2012, de réduire sa consomma-tion énergétique de 20%, en particulier en réduisant la consommation d’électricité de tractionde 15%, à l’horizon 2022. C’est également dans cette dynamique qu’a été créée la filiale SNCFÉnergie, chargée de mutualiser la commande en électricité de la SNCF, de négocier au mieux surle marché, et de devenir coproducteur d’hydroélectricité afin de mieux gérer les heures de pointe.

Parmi les mesures prises sur la traction, on peut citer trois leviers d’action :— l’amélioration du matériel roulant (dont les retombées en terme d’économie d’énergie

ont été observées au cours de ce stage), notamment en augmentant l’aérodynamisme(profil, châıne de traction), en utilisant un matériel plus léger (passer de 17 à 14 tonnes àl’essieu), et en optimisant les fonctions auxiliaires (interaction avec la caténaire, chauffage,ventilation, lumière...)

— la récupération de l’énergie de freinage des trains : au lieu d’être dissipée par échauffement,l’énergie de freinage serait récupérée et renvoyée à la caténaire via le pantographe (unetechnologie déjà utilisée sur un quart du réseau en Île de France)[2]

— la formation des conducteurs à l’écoconduite, qui pourrait générer un gain énergétiquede 6%

Afin de piloter ces différentes mesures, des compteurs d’énergie sont en train d’être ins-tallés à l’intérieur des motrices, dans le but d’optimiser les consommations et de promouvoirl’écoconduite observée chez les conducteurs expérimentés. L’objectif de ce stage est justement defaire une première analyse des données collectées par ces compteurs.

Par ailleurs, d’autres économies sont à faire en dehors de la traction, notamment en abais-sant systématiquement les pantographes des trains à l’arrêt (i.e. en les déconnectant du réseauélectrique), ce qui devrait générer une économie de 10% de la facture actuelle [3].

1.1.3 Le programme Smart grids

Les réseaux de distribution d’électricité intelligents (en anglais smart grids) sont un sujetprimordial de la recherche et de l’innovation : leur utilisation doit permettre de gérer de façonplus intelligente les différents réseaux électriques interconnectés entre eux en France que sontle réseau public de transport à haute tension (détenu et géré par RTE), les réseaux publics dedistribution à faible tension (détenus par les collectivités territoriales et gérés principalement parERDF), et le réseau ferroviaire qui se raccorde directement aux deux précédents.

La SNCF a donc décidé de recourir à ces technologies afin de répondre au besoin d’optimi-sation de sa consommation électrique, et a mis en place le programme Smart grids. Ses enjeuxsont triples :

— améliorer le pilotage de la facture d’électricité du transport ferroviaire (économies d’énergie,achat d’une électricité à prix compétitif)

— garantir l’approvisionnement énergétique du système ferroviaire dont le trafic est en constanteaugmentation

— améliorer l’empreinte environnementale des trains en réduisant les émissions de gaz à effetde serre

Bien qu’il ne soit pas directement lié au programme Smart grids, ce stage est, de par sonsujet et sa réalisation en interaction avec le réseau électrique ferroviaire, à mi-chemin entre les

3

réseaux intelligents et la gestion des transports de personnes.

Afin d’interpréter au mieux les données fournies par ses compteurs d’énergie, la SNCF s’esttournée vers le laboratoire Grettia de l’Ifsttar, dont l’équipe Data est spécialisée dans l’analysedes données liées aux transports.

1.2 L’entreprise : Ifsttar

“L’Ifsttar conduit des travaux de recherche finalisée et d’expertise dansles domaines des transports, des infrastructures, des risques naturels etde la ville pour améliorer les conditions de vie de nos concitoyens et pluslargement favoriser un développement durable de nos sociétés.”[4]

1.2.1 Quelques chiffres

Figure 2 – Les différents sites de l’Ifsttar [4]

L’Ifsttar emploie 1150 agents sur neuf sites en France (Marne-la-Vallée, Lille, Versailles,Nantes, Lyon, Marseille, Salon-de-Provence, Grenoble et Belfort) avec un budget de 100 mil-lions d’euros.

L’Ifsttar dispose de plus de 50 équipements remarquables répartis entre grands équipement etsites d’expérimentation, plates-formes d’analyse, d’expérimentation et d’évaluation, simulateurs,véhicules instrumentés et recueils de données (j’ai moi-même été invité à utiliser un simulateurde conduite dans le cadre d’une étude sur la conduite des personnes atteintes de la cataracte).

4

L’Institut est investi dans 90 projets européens, parmi lesquels différents PCRD (ProgrammesCadres de la Recherche et du Développement) de la Commission Européenne, ainsi que des Ac-tions Marie Curie (destinées à soutenir la mobilité à l’échelle de l’Europe au moyen de bourseset de réseaux de formation initiale pour jeunes chercheurs).

L’Institut mène également une politique de dépôt de brevets (environ six par an) qui l’a mené àconsituer un portefeuille d’environ 80 brevets en cours de validité. Un tiers de ces brevets font l’ob-jet de licences auprès d’entreprises privées qui utilisent donc des principes protégés par l’Ifsttardans leur activité. L’Ifsttar dépose également des marques comme la marque � mlpc � (matérielsdes laboratoires des Ponts et Chaussées), avec actuellement une douzaine de marques actives.

Au niveau de la recherche, l’Ifsttar est particulièrement actif, avec 160 contrats de rechercheen 2014, et 380 doctorants financés par divers établissements et institutions. Chaque promotioncompte plus de 100 nouveaux doctorants par an.

1.2.2 Historique

Issu de la fusion, le 1er janvier 2011, entre l’Institut National de Recherche sur les Transportset leur Sécurité (Inrets) et le Laboratoire Central des Ponts et Chaussées (LCPC), l’InstitutFrançais des Sciences et Technologies des Transports, de l’Aménagement et des Réseaux (Ifsttar)est un établissement public à caractère scientifique et technologique, placé sous la tutelle duMinistère de l’Écologie, du Développement Durable et de l’Énergie, et du Ministère de l’Ensei-gnement Supérieur et de la Recherche. Son siège se trouve à Marne-la-Vallée, et il est égalementimplanté à Lille, Versailles, Nantes, Lyon, Marseille, Salon-de-Provence, Grenoble et Belfort.

Fondé en 1985, l’Inrets avait pour missions de :— rassembler et développer les connaissances scientifiques en matière de transports— jouer un rôle d’expert et de consultant dans les projets liés aux transports— diffuser les connaissances rassemblées par la voie de l’enseignement supérieur et la com-

munication au grand public— valoriser ses recherches par des partenariats économiques

Les principaux domaines de recherche de l’Institut étaient la sécurité des personnes (santé,gestion des risques...), la réduction de la dépendance aux énergies fossiles, l’optimisation dessystèmes de transport (fiabilité, durabilité, consommation énergétique, impact environnemental).

Le LCPC, quant à lui, a été fondé en 1998 et remplissait les tâches suivantes :— effectuer des recherches et des études en aménagement du territoire (infrastructures, génie

civil et urbain, environnement)— développer les outils logiciels et matériels pour ces recherches— jouer un rôle d’expert et de consultant en matière d’aménagement du territoire— gérer la R& D des Centres d’Études Techniques de l’Équipement et des Laboratoires

Régionaux des Ponts et Chaussées— être l’ambassadeur de la recherche française en matière d’aménagement territorial à l’in-

ternational— diffuser les connaissances, réglementations et normes dans son domaine de compétences

5

1.2.3 Organisation

L’Ifsttar s’est donc vu confier la plupart de ces missions (dont beaucoup se recoupent), ets’est fixé quatre objectifs scientifiques majeurs :

— concilier mobilité et développement durable— adapter les infrastructures pour les rendre efficaces et durables— étudier les risques naturels et l’impact environnemental de l’Homme— travailler à l’échelle des villes et territoires (approche systémique et multi-échelles)

La réalisation de ces objectifs est réalisée au sein de cinq départements scientifiques :1. le Département Matériaux et Structures (MAST)2. le Département Géotechnique, Environnement, Risques naturels et Science de la terre

(GERS)3. le Département Composants et Systèmes (COSYS)4. le Département Transport, Santé et Sécurité (TS2)5. le Département Aménagement, Mobilités et Environnement (AME)

Mon stage s’est déroulé au sein du département COSYS, sur le site de Marne-la-Vallée. J’yai intégré l’équipe Data du laboratoire Grettia.

1.2.4 Le laboratoire : Grettia

Figure 3 – L’équipe Grettia en 2015

Dirigé par Jean-Patrick Lebacque, le Grettia (Génie des réseaux de transports terrestres etinformatique avancée) est l’un des 11 laboratoires placés sous la responsabilité du DépartementCOSYS depuis le 1er janvier 2013. Il est le résultat de la fusion, en 2010, entre l’unité de re-cherche GRETIA, l’équipe EPUR-RIR et les équipes du Laboratoire des Technologies Nouvellesde Marne-la-Vallée.

Le Grettia est chargé de la recherche dans le domaine des systèmes de transports terrestres, de-puis les aspects systémiques, la modélisation et la simulation, jusqu’aux aspects dynamiques desvéhicules en passant par la gestion, le diagnostic et la maintenance. Il contribue au développementde l’ingénierie des réseaux et systèmes de transport dans le domaine routier, le transport collectifet les transports guidés. Il répond donc aux exigences d’innovation pour une mobilité durable,

6

et d’approche systémique et multi-échelle dans l’aménagement des villes et territoires.

Le laboratoire comporte deux pôles de recherche : le pôle “Modélisation et Multimodalité”,dont les travaux s’articulent autour des modèles numériques pour la simulation (interactionvéhicules-infrastructures, régulation du trafic et son impact à toutes échelles) et l’évaluation dela multimodalité, de l’électromobilité et des aménagements ; et le pôle “Data et Mobilités”, ausein duquel j’ai effectué mon stage.

Dans un contexte de besoins croissants en mobilité, qui soulèvent les questions de l’inclu-sion sociale par la mobilité, de la transition énergétique et de la mâıtrise des impacts environ-nementaux liés au transport, les acteurs des transports mettent à disposition des masses dedonnées concernant les systèmes et réseaux de transport (traces GSM, crowdsourcing, billet-tique, véhicules sondes, télé-diagnostics...) que l’équipe “Data et Mobilités” cherche à exploiteren associant l’analyse de données quantitatives (Data Science) à des approches plus qualitatives(Sciences Humaines et Sociales), afin de fournir une analyse fine permettant de comprendre et deprédire les mobilités et les flux de personnes, et d’évaluer et d’améliorer la qualité et la fiabilitédes systèmes de transport.

1.3 Le comptage de l’énergie consommée par les trains

1.3.1 Les compteurs

Dans un souci de répartition des coûts énergétiques sur les différentes filiales, d’analysegéographique de la consommation d’énergie, et de promotion de l’écoconduite, la SNCF a étéinvitée par le pouvoir public à équiper ses trains de compteurs d’énergie qui mesurent, à inter-valle de temps régulier, la position, la vitesse et les paramètres de consommation d’énergie de lamotrice. Afin de satisfaire cette nécessité, SNCF a passé un contrat avec diverses entreprises deconception de compteurs d’énergie, qui lui fournissent des compteurs d’énergie afin d’équiper lestrains.

Ces données sont ensuite agrégées par la Direction de l’Énergie en fonction de l’origine, dela destination, de l’immatriculation et d’autres paramètres qui caractérisent le train équipé, etstockées en masse sur les serveurs de la SNCF. Il est à noter que les nombreux traitementssubis par les données accroissent d’autant le risque d’erreurs. Par ailleurs, suite à des incidentstechniques sur les compteurs, leur déploiement a momentanément été interrompu, ce qui a eupour conséquence de diminuer le nombre de données collectées.

1.3.2 La consommation énergétique des trains

Les trains sont alimentés en courant alternatif haute tension ou en courant continu, via untroisième rail ou une caténaire, et le retour de courant se fait par les rails de la voie, ou bienun quatrième rail prévu à cet effet. Si l’on utilisait initialement des moteurs à courant continu,qui présentent de bonnes caractéristiques de traction, depuis le début des années 80 la majoritédes moteurs de trains sont des moteurs alternatifs asynchrones alimentés par des convertisseursstatiques, qui présentent l’avantage de limiter les pertes par usure du matériel lors de l’utilisationde courant alternatif à fréquences élevées.

Lorsque le train est alimenté par un courant continu, il est simplement connecté à la caténairepar le pantographe, qui délivre une tension de 1500 V. En revanche, vu la puissance nécessaire à la

7

traction d’un train, l’intensité 2 des courants qui y circulent est telle qu’une caténaire spécifique,de section plus importante, alimentée par des sous-stations électriques distantes de 10 à 15 km,est nécessaire. En France, ce type de caténaire est essentiellement utilisé sur les réseaux sud-estet sud-ouest.

L’alimentation en courant alternatif se fait au niveau du réseau de transport d’électricité sousforme de courant alternatif triphasé, le plus simple à produire et à transporter efficacement àl’échelle nationale. Les caténaires étant quant à elles monophasées, une ligne alimentée par uncourant alternatif comporte donc des caténaires qui se succèdent, chacune étant raccordée, via sasous-station, à l’une des trois phases de RTE. Alors, afin d’éviter le pontage de deux caténairessuccessives (dont les alimentations sont déphasées de 120◦) par un ou plusieurs pantographes,une section de séparation de sources d’alimentation (entourée en pointillés sur la figure 4) estréalisée. Les trains passent ainsi souplement d’une caténaire à la suivante, sans créer d’anoma-lie dans le réseau électrique. En France, les sous-stations sont alors espacées de 50 à 70 km etdélivrent généralement une tension de 25 kV à 50 Hz, ce qui rend ce mode d’électrification net-tement moins coûteux que l’électrification en courant continu.

Figure 4 – Schéma de l’électrification des trains en courant alternatif triphasé

Depuis quelques années, les trains fonctionnent sur le principe du freinage régénératif : lorsdes périodes de freinage, le sens du couple à fournir par le moteur est inversé, soit par inversiondu sens du courant inducteur (en courant continu), soit par inversion du sens d’alimentation desphases du stator (en courant alternatif) ; ainsi, le moteur � pédale à l’envers �, et l’inertie dutrain entraine la génération d’énergie électrique par effet dynamo. Cette électricité est ensuiteréinjectée dans la caténaire lorsque c’est possible (on parle alors de freinage par récupération),ou bien, le cas échéant, dissipée par effet Joule dans des résistances (freinage rhéostatique). Dansla pratique, le freinage par récupération est permis par le passage d’un autre train alimenté parla même sous-station, et qui serait, lui, en phase d’accélération.

Les données collectées par les compteurs d’énergie permettent, entre autres, de connâıtre lemode d’alimentation d’un train (alternatif ou continu), ainsi que de savoir s’il renvoie de l’énergieà la ligne lors du freinage. Ces informations (notamment l’information sur le renvoi d’énergie dansla caténaire) présentent un fort potentiel d’économie d’énergie, si l’on arrive à synchroniser les

2. en vertu de la formule donnant la puissance : P = U · I

8

freinages et accélérations des trains alimentés par les mêmes sous-stations.

1.3.3 Autres enjeux de l’exploration des données de comptage d’énergie

Outre les enjeux d’économie sur la consommation des trains, l’exploration des données decomptage d’énergie peut servir à visualiser d’autres informations intéressantes. Par exemple, unesous-station électrique ferroviaire délivre une tension nominale constante, et c’est donc le courantqui varie pour satisfaire la demande en puissance. Cependant, pour des raisons de préservationdu matériel, il existe un seuil d’intensité de courant à ne pas dépasser, sous peine d’endommagerla sous-station et la caténaire. Par conséquent, si un trop grand nombre de trains circulent dansla zone d’action d’une même sous-station, la demande en puissance sera telle que l’intensité en-voyée dans la caténaire atteindra sa saturation. Cela entrâıne alors une diminution de la tensionet donc de la puissance délivrée aux trains qui, faute de traction suffisante, se trouvent retardésd’autant. L’analyse des données de comptage d’énergie devrait permettre de visualiser ces chutesde la puissance de traction et ainsi de mieux comprendre les circonstances dans lesquelles elle alieu.

Par ailleurs, lorsqu’un train est alimenté en courant alternatif, sa réactance 3 induit undéphasage entre la tension et le courant reçus. La puissance reçue possède alors deux composantes(parties réelle et imaginaire de sa représentation complexe) : la puissance active Pa =

Figure 5 – Illustration graphique de l’algorithme k-moyennes [5]

plus particulièrement intéressé aux algorithmes des k-moyennes et de classification ascendantehiérarchique.

2.1 partitionnement par K-moyennes

La méthode des k-moyennes sert à partitionner un nombre fini de données vectorielles x ∈ Xen un nombre prescrit k de clusters, de manière itérative :À l’initialisation, on définit k centröıdes c1, . . . , ck suivant une méthode au choix (par exemple,par tirage aléatoire uniforme).À chaque étape, on construit les clusters C1, . . . , Ck tels que ∀x ∈ Cj , min

1≤`≤k‖x− c`‖ = ‖x− cj‖,

et on recalcule des nouveaux centröıdes : cj =1

|Cj |∑

x∈Cjx.

Cette méthode permet de minimiser l’erreur de classification, aussi appelée inertie intra-classes,ou WSSSE (within set sum of square) en anglais :

WSSSE =∑x∈X

min1≤j≤k

‖x− cj‖2. (2)

L’heuristique derrière cette méthode est développée de manière élégante, sous l’angle de laquantification, dans [6], dont je vais reprendre certains éléments dans la section suivante.

2.1.1 Approche heuristique des k-moyennes

On se place dans un espace de Hilbert H séparable, auquel on va appliquer le principe de laquantification. Pour cela, on munit H d’une probabilité P d’ordre 2 :∫

H‖x‖2P (dx)

On introduit ensuite les notions suivantes :— Un quantifieur d’ordre k ∈ N∗ est un q : H −→ C = {c1, . . . , ck} ⊂ H mesurable— On appelle P = {A1, . . . , Ak}, où Aj = q−1({cj}), la partition associée— On appelle C l’alphabet de q et on identifie q = (C ,P)— On appelle distorsion de q pour la probabilité P la grandeur

D(P, q) =

∫H‖x− q(x)‖2P (dx)

— On appelle distorsion minimale de P à l’ordre k la grandeur

D?k(P ) = infq d’ordre k

D(P, q)

Du point de vue de la classification, le quantifieur est simplement l’application qui à unpoint associe un centröıde (pas nécessairement le plus proche), et la partition est l’ensemble desclusters ainsi définis. La distorsion représente alors l’erreur quadratique moyenne commise enassimilant une variable aléatoire X de loi P à sa quantification q(X), par rapport à la norme ‖‖.[6] démontre en particulier que plus le nombre k de cluster est élevé, plus D?k(P ) est faible :

D?k(P )↘ quand k ↗ et D?k(P ) −→k→+∞

0. (4)

Dans le cas de l’algorithme k-moyennes, on ajoute le critère ∀x ∈ Aj , min1≤`≤k

‖x − c`‖ =

‖x− q(x)‖, qui équivaut à imposer

q(x) = argminc∈C

‖x− c‖. (5)

On parle alors de quantificateur de type plus proches voisins (PPV), noté qPPV et caractériséuniquement par son alphabet, et on a

D(P, qPPV ) =

∫H

min1≤j≤k

‖x− cj‖2P (dx). (6)

De plus, pour un alphabet C donné, le quantifieur PPV associé minimise la distorsion [6] :

D(P, qPPV ) = minq=(C ,P)

D(P, q). (7)

Enfin, [6] démontre le théorème suivant :

Théorème 1. À tout ordre k ∈ N∗, il existe un alphabet quantifieur qmin minimisant la distor-sion.

D(P, qmin) = minq d’ordre k

D(P, q). (8)

2.1.2 Application au partitionnement

Le partitionnement se fait à partir de mesures x1, . . . , xn ∈ Hn qui sont les réalisations den variables aléatoires X1, . . . , Xn i.i.d. de loi P d’ordre 2. On cherche à définir k classes quidistinguent ces mesures de manière pertinente par rapport à la loi P .

On considère alors :

11

— Pn =1

n

n∑i=1

δXi , mesure empirique des observations

— D(Pn, q) =

∫H‖x − q(x)‖2Pn(dx) =

1

n

n∑i=1

‖Xi − q(Xi)‖2 la distorsion empirique du

quantifieur q

— W (Pn,C ) = n · D(Pn, qPPV ) =n∑

i=1

minc∈C‖Xi − c‖2 l’inertie intra-classes de la partition

k-moyennes associée aux centröıdes c1, . . . , ck ∈ C

On cherche un quantificateur empirique de type PPV qui minimise l’inertie intra-classesassociée. Pour cela, on procède comme énoncé en début de section :Après avoir initialisé les centröıdes et construit les clusters associés (pour 1 ≤ j ≤ k, Cj =Aj ∩ {X1, . . . , Xn} où Aj = q−1PPV ({cj})), on calcule des nouveaux centröıdes tels que

c′j = argminy∈H

n∑i=1

‖Xi − y‖21{Xi ∈ Aj}. (9)

On a alors, si q est associé à C = {c1, . . . , ck} et q′ à C ′ = {c′1, . . . , c′k}

D(Pn, q) =1

n

k∑j=1

n∑i=1

‖Xi − cj‖21{Xi ∈ Aj}

≥ 1n

k∑j=1

n∑i=1

‖Xi − c′j‖21{Xi ∈ Aj} (10)

= D(Pn, q′).

Dans la pratique, on applique cette � itération de Lloyd � jusqu’à ce que la distorsion em-pirique se stabilise, i.e. jusqu’à ce que l’inégalité (10) devienne une égalité (avec éventuellementun nombre maximal d’itérations prescrit si on veut plafonner le temps de calcul).

Il est démontré dans [6] que si le quantifieur empirique q̂n minimise la distorsion empirique(et donc l’inertie intra-classes) pour un échantillon de taille n de la loi P , alors il est consistant,au sens

E[D(P, q̂n)] −→n→∞

D?k(P ). (11)

Plus précisément, on a, si P est de support borné et R ≥ supx∈supp(P )

‖x‖ :

E[D(P, q̂n)]−D?k(P ) ≤ 36kR2

n.

Finalement, la méthodologie classique pour choisir le nombre de clusters à prescrire à l’algo-rithme des k-moyennes est la � méthode du coude �, donnée par exemple dans [5] : il suffit detracer la courbe de l’erreur intra-classes en fonction du nombre de cluster. On obtient le graphed’une fonction décroissante (cf décroissance de la distorsion en fonction de l’ordre du quantifieurprésentée en 2.1.1). On peut prescrire un nombre de clusters pertinent si cette courbe présenteune rupture de pente : en général, la pente (négative) augmente avec k, se rapprochant de 0 ;cela signifie qu’augmenter k diminue moins l’inertie intra-classes après ce point, et donc que les

12

clusters porteurs de sens ont déjà été définis.

Figure 6 – Illustration de la méthode du coude issue de [5] pour déterminer le nombre de clustersà construire dans la méthode k-moyennes

L’algorithme des k-moyennes est donc un moyen efficace de classifier des données. Notonstoutefois que bien qu’il termine toujours, rien n’assure que le minimum atteint pour la distorsionempirique est bien le minimum global. Par ailleurs, le temps de convergence peut être exponentielen le nombre de points, et ce même en petite dimension (d’où l’éventuelle prescription d’unnombre maximal d’itérations). Enfin, l’algorithme des k-moyennes a besoin qu’on lui spécifie enentrée le nombre k de clusters à construire, ce qui peut dans certaine cas s’avérer gênant. Je mesuis donc également penché sur la classification ascendante hiérarchique, dont l’heuristique esttrès différente.

2.2 Classification Ascendante Hiérarchique (C.A.H.)

Alors que l’algorithme k-moyennes construit une typologie, c’est-à-dire un ensemble de clus-ters qui partitionnent les données, la classification ascendante hiérarchique construit une hiérarchie,c’est-à-dire une collection de groupes d’observations qui peuvent éventuellement se recouper (etne forment donc pas une partition de l’ensemble des données). On peut ensuite, à partir de cettehiérarchie, définir plusieurs typologies (ainsi, le nombre de clusters à construire n’a pas à êtrespécifié).

La figure 7 présente la structure d’une hiérarchie : on peut la représenter sous la forme d’unarbre binaire, dont la racine serait le groupe contenant l’ensemble des données à classifier, et lesfeuilles sont les singletons constitués par les données. Entre les deux, les données sont regroupéesen différents groupes (noeuds de l’arbre) en fonction de leur similarité.

2.2.1 Principe de la C.A.H.

La classification ascendante hiérarchique s’implémente pour classifier des données x1, . . . , xnreprésentées dans un espace X muni d’une métrique d. L’algorithme construit une hiérarchie enpartant de ses feuilles, c’est-à-dire de la partition des n données en n singletons. Puis, au fil

13

Figure 7 – Description d’une hiérarchie [7]

des calculs, on remonte la hiérarchie jusqu’à regrouper l’ensemble des données (d’où le terme� ascendante �). Cette méthode se base donc sur le regroupement de plusieurs clusters en unseul, sur la base de leur similarité.

L’algorithme est le suivant :1) Initialisation

— On place chaque individu dans son propre cluster— On calcule la matrice de ressemblance Z ∈Mn(R) définie par

Zi,j = d(xi, xj), 1 ≤ i, j ≤ n

2) Itération— Calcul de (i?, j?) = argmin

i,jZi,j

— Fusion des clusters Ci? et Cj? en un unique cluster CF— Mise à jour de Z en calculant la dissimilarité entre CF et les clusters existants

L’algorithme termine lorsqu’on fusionne les deux dernier clusters : il y a donc n−1 itérations.Les informations dégagées au cours de la construction de la hiérarchie sont ensuite résumées dansun arbre hiérarchique appelé dendrogramme, indicé par la mesure de dissimilarité entre les clus-ters (cf figure 8 : l’axe gradué représente la mesure de dissimilarité minimale), qui retrace lesdifférents regroupements opérés par l’algorithme.

On peut ensuite choisir (à la main ou de façon automatique) le partitionnement qui convient ;il s’agit du partitionnement situé :

— Après la série d’agrégations à faible dissimilarités (branches courtes de l’arbre, qui corres-pondent à la fusion de groupes proches)

14

Figure 8 – Illustration du fonctionnement de la C.A.H. [8]

— Avant la série d’agrégations à forte dissimilarités (branches longues de l’arbre, correspon-dant à la fusion de groupes ayant peu de points communs)

Le problème essentiel qui se pose à ce stade est donc la méthode de calcul de dissimilaritéentre deux groupes contenant plus d’un individu chacun.

2.2.2 Critère d’agrégation

Il existe plusieurs méthodes pour calculer la dissimilarité D(A,B) entre deux groupes A et Bde données, chacune donnant des résultats très différents lorsqu’on l’implémente dans l’algorithmede C.A.H. Les deux critères les plus simples sont ceux du saut minimal et du saut maximal :

Dmin(A,B) = min(a,b)∈A×B

d(a, b), (12)

Dmax(A,B) = max(a,b)∈A×B

d(a, b). (13)

Le saut minimal a tendance à produire des classes très générales et regroupe parfois desclasses peu semblables par effet de châınage, comme le montre la figure 9. À l’inverse, le sautmaximal ne regroupe que des classes très proches et peut passer à côté de certaines similaritésentre des groupes non convexes.

Figure 9 – Deux groupes que le saut minimal regroupera aisément, tandis que le saut maximalles discernera mieux [9]

15

Un compromis intuitif est le saut moyen, défini par

Dmoy(A,B) =1

|A| · |B|∑a∈A

∑b∈B

d(a, b). (14)

D’après [8], ce critère présente l’avantage d’être un peu moins sensible aux groupes bruitésque les deux précédents, et à produire des classes de variance proche. Il existe beaucoup d’autrescritères de calcul de dissimilarité, mais je n’en détaillerai ici qu’un quatrième : le critère inertiel,dérivé de la méthode de Ward.

Le moyen usuel de juger de la qualité d’une classification dans un espace de Hilbert H est decalculer l’inertie intra-classes (cf équation (2)) associée à la partition C1, . . . , Ck : elle doit êtreminimale. D’après la formule de l’inertie totale 4, cela revient à maximiser l’inertie inter-classesassociée, définie par

IB =

k∑`=1

|C`| · ‖g` − g‖2. (15)

où g` est le centre de gravité du cluster C`, et g est le centre de gravité de l’ensemble desdonnées :

g` =1

|C`|∑x∈C`

x,

g =1

n

n∑i=1

xi.

Lorsqu’on fusionne deux groupes A et B d’une partition en k+1 clusters, on obtient le groupeAB et l’inertie inter-classes diminue de

4. WSSSE + IB = cste pour un jeu de données fixé, et ne dépend pas de la classification.

16

∆IB = IB(k + 1)− IB(k)

=

(k−1∑`=1

|C`| · ‖g` − g‖2 + |A| · ‖gA − g‖2 + |B| · ‖gB − g‖2)

−

(k−1∑`=1

|C`| · ‖g` − g‖2 + |AB| · ‖gAB − g‖2)

=(|A| · ‖gA − g‖2 + |B| · ‖gB − g‖2

)− |AB| · ‖gAB − g‖2

=(|A| · ‖gA − gAB‖2 + |B| · ‖gB − gAB‖2 + (|A|+ |B|)‖gAB − g‖2

)−|AB| · ‖gAB − g‖2 (16)

= |A| · ‖gA − gAB‖2 + |B| · ‖gB − gAB‖2

= |A| ·∥∥∥∥gA − |A|gA + |B|gB|A|+ |B|

∥∥∥∥2 + |B| · ∥∥∥∥gB − |A|gA + |B|gB|A|+ |B|∥∥∥∥2

= |A| ·∥∥∥∥ |B|gA − |B|gB|A|+ |B|

∥∥∥∥2 + |B| · ∥∥∥∥ |A|gB − |A|gA|A|+ |B|∥∥∥∥2

=|A| · |B|2 + |B| · |A|2

(|A|+ |B|)2‖gA − gB‖2

=|A| · |B||A|+ |B|

‖gA − gB‖2. (17)

Où l’égalité (16) découle de la formule des barycentres.

Diminuer le nombre de cluster diminue automatiquement l’inertie inter-classes. Dans une op-tique de clustering, on peut chercher, à chaque étape de fusion de groupe, à maximiser cetteinertie : il s’agit de trouver la fusion qui diminuera le moins possible l’inertie inter-classes. Au-trement dit, on utilise la mesure de dissimilarité de Ward, définie par

DWard(A,B) =|A| · |B||A|+ |B|

‖gA − gB‖2. (18)

Alors, l’algorithme cherchant à minimiser cette dissimilarité, on obtiendra ainsi la fusion op-timale en terme de diminution d’inertie intra-classes à chaque étape. Comme les trois autresmesures de dissimilarité présentées, la distance de Ward possède des cractéristiques particulièreslorsqu’on l’applique à la C.A.H. En particulier, elle fait montre d’une bonne robustesse face auxdonnées bruitées.

Ainsi donc, les résultats de la C.A.H. sont fortement dépendants du critère d’agrégation choisi.Elle présente l’avantage de ne pas demander le choix a priori du nombre de clusters à construire.De plus, elle ne fournit pas un partitionnement tout fait mais un dendrogramme qui permet,ensuite, de choisir soi-même les clusters en fonction de la hiérarchie dégagée. La C.A.H. et laméthode des k-moyennes sont deux des algorithmes de clustering les plus classiques. Il en existebien d’autres, et beaucoup on fait l’objet d’une étude appliquée aux données de consommationd’énergie récoltées par les industriels. Les principales études de ce genre font l’objet de la sectionsuivante.

17

2.3 État de l’art sur l’analyse de données d’énergie

Avec la multiplication des technologies de comptage d’énergie (notamment les compteurs in-telligents ou smart meters), il devient de plus en plus intéressant pour les industriels d’investirdans la recherche afin d’analyser les données de consommation d’énergie de leurs consomma-teurs. L’application principale de ces données étant le développement des smart grids (réseauxélectriques intelligents), puis des smart cities (villes intelligentes), le domaine dans lequel cesétudes sont les plus répandues est à ce jour celui de l’énergie consommée au niveau de bâtiments(bâtiments industriels, bureaux, résidences...), ceux-ci étant les principaux points où est dis-tribuée l’électricité. Jusqu’à maintenant, peu de chercheurs ont publié des articles spécialisés surla consommation énergétique ferroviaire. Cependant, même lorsqu’elles sont appliquées au bâti,les techniques d’analyse de données utilisées sont sensiblement les mêmes, et il était intéressantpour moi de procéder à une étude de l’état de l’art dans ce domaine.

2.3.1 Méthodologie

Le protocole appliqué lors d’un travail de clustering est relativement peu changeant, maisplusieurs articles donnent une description détaillée des grandes étapes d’un tel travail. [10] endistingue quatre :

1) Collecter les données et leur faire subir les prétrâıtements nécessaires à la mise en oeuvred’un algorithme de partitionnement, en particulier, identifier et écarter les données er-ronnées qui risquent de fausser l’étude

2) Préparer le travail de clustering en mettant les données sous une forme exploitable, c’est-à-dire si possible sous la forme de vecteurs appartenant à un même espace euclidien oude matrices réelles

3) Appliquer un algorithme de clustering et vérifier son bon fonctionnement, en affichant lescentröıdes et en appliquant des méthodes d’évaluation de sa qualité

4) Exploiter le clustering : définir des catégories de consommateurs et leurs modes de consom-mation, calculer les caractéristiques globales des clusters (consommation moyenne surdifférentes échelles de temps, situation des différents pics de consommation...)

[12] s’appuie davantage sur le contexte des données, et recourt à une étude préalable afin de ca-ractériser et d’analyser les différents types de consommateurs (qui sont ici des foyers résidentiels :analyse du nombre de personnes habitant le foyer, du statut professionnel de ses occupants, etc),avant même d’appliquer des algorithmes de clustering eux-mêmes. Par ailleurs, il a égalementrecours à une régression linéaire multiple afin non seulement de classifier les différents types deconsommateurs mais également d’expliquer leurs profils de consommation à l’aide des donnéesprécédemment étudiées.

[11] propose une méthodologie pour appliquer différents algorithmes de clustering à la ca-ractérisation des profils de consommation d’une part et des types de consommateurs d’autrepart. Les algorithmes appliqués sont les méthodes des k-moyennes, des k-médöıdes 5, et descartes auto-adaptatives 6.

5. on cherche à minimiser l’inertie intra-classes comme dans les k-moyennes, mais les centröıdes sont cette foisdes points du jeu de données à partitionner.

6. méthode également basée sur la quantification de l’espace, qui consiste à entrâıner un réseau de neuronesarticficiels dont chaque neurone est affecté à un élément de l’alphabet C ; l’entrâınement consiste à ce que lesneurones s’affectent de manière automatisée à la quantification la plus pertinente.

18

Figure 10 – Méthodologie appliquée à l’analyse des données de consommation électrique dans[11]

La méthodologie de la détection d’anomalies est également un sujet important, traité notam-ment par [13] qui applique aux données de consommation d’énergie de bâtiments des méthodesde classification et de clustering (notamment l’algorithme des k-moyennes), avant de proposer desméthodes de détection d’erreur comme l’utilisation de diagrammes en bôıte et de tests d’anoma-lie. Les diagrammes en bôıtes sont un outil facile à appliquer et efficace pour repérer les valeursaberrantes, mais dans le cas de données erronnées nombreuses, ces méthodes de détection d’er-reur semblent moins robustes car il devient alors difficile de définir une référence et/ou de donnerun critère d’anormalité.

Outre le développement de protocoles pour analyser les profils de consommation énergétique,les chercheurs se sont également attachés à décrire, exploiter et comparer les différentes méthodesde clustering, toujours dans ce même contexte de données d’énergie, afin de déterminer lesquellessont les plus indiquées en fonction des cas de figure.

2.3.2 Comparaison des méthodes de clustering appliquées aux données d’énergie

De nombreux algorithmes sont présentés dans la littérature, leurs points forts et leurs défautsanalysés au moyen d’outils statistiques variés, et leurs performances générales sont ensuite com-parées afin de donner au lecteur une idée des méthodes à utiliser suivant les données auxquellesil est confronté.

19

[14] a pour objet de décrire les méthodes de C.A.H., de k-moyennes, de k-moyennes floues 7,de follow-the-leader (voir figure 11), et de relations floues 8.

Un tableau récapitulatif des principales caractéristiques de ces méthodes est ensuite donné(voir figure 12). Les conclusions sont les suivantes :

— La C.A.H. est particulièrement indiquée si on ne sait pas à quel partitionnement s’attendre,car elle permet de choisir les clusters par une analyse du dendrogramme

— La méthode des relations floues est utile lorsqu’on a affaire à un jeu de données bruité degrande taille

— La méthode follow-the-leader est particulièrement appropriée lorsqu’on a une idée a prioridu nombre approximatif de classes que l’on recherche

— Si on connâıt a priori le nombre exact de clusters à construire, alors les algorithmes dek-moyenne standard et flou sont les plus indiqués

— Dans le cas d’un jeu de données bruité, il est préférable d’utiliser des méthodes comme lesk-moyennes floues ou les relations floues plusôt que la C.A.H. ou les k-moyennes standard

[15] reproduit une étude semblable avec les mêmes techniques, à ceci près que la méthodedes relations floues n’y est pas abordée. À la place, une étude de la méthode des cartes auto-adaptatives est présentée. Il en ressort que deux implémentations semblent particulièrementefficaces pour traiter leurs données (constituées de n = 234 profils de consommation électriquenon résidentielle, caractérisés chacun par 96 valeurs de consommation réparties toutes les 15minutes dans la journée : H = R96). Les deux implémentations les plus efficaces sont alors laméthode follow-the-leader et la C.A.H. implémentée avec le saut moyen, car elles donnent despartitions très fines des jeux de données, capables à la fois d’isoler les modes de consommationinhabituels et de réunir les autres profils dans de larges clusters peu nombreux, idéaux pourdéfinir une gamme de prix en fonction de leurs caractéristiques.

Également, la dernière section de [10] évalue les performances des méthodes de partition-nement qui y ont été présentées auparavant. Il en ressort que les indicateurs de validité departitionnement utilisés évaluent principalement la propension à isoler les données aberrantes,ce qui est crucial dans l’interprétation des résultats et le choix de la méthode. Par exemple, ilest à nouveau mentionné que si l’on s’attend à un nombre précis de clusters, mieux vaut utili-ser les k-moyennes, tandis que les méthodes hiérarchiques conviennent davantage lorsqu’on veutpartitionner le jeu de données sans avoir d’informations a priori sur la forme du partitionnementrecherché, et isoler les valeurs aberrantes plus efficacement. Dans le cas d’une identification demodes de fonctionnement anormaux, il est donc toujours utile de recourir à une méthode où lenombre de clusters à construire n’est pas prédéterminé.

Dans [16], un état de l’art est fait sur les méthodes de modélisation développées pour antici-per et influencer la demande en électricité, de manière à pouvoir lisser les pics de consommationen induisant une demande mieux répartie dans le temps. Les études sur le partitionnement dedonnées d’énergie sont également mentionnées (dont, entre autres, [15]). Les travaux mentionnésdans cet état de l’art sont ensuite mis en application sur un échantillon fourni par une agenced’énergié suédoise, mais les résultats en sont mitigés : si la classification semble bien fonctionner,les auteurs obtiennent un partitionnement des profils de consommation qui n’est que le reflet

7. algorithme identique à celui des k-moyennes, à ceci près qu’au lieu de placer un point xi dans un clusterCj , on lui attribue une probabilité d’appartenance pi,j à chaque cluster ; puis on modifie les centröıdes de façonà minimiser

∑i,jpi,j‖xi − cj‖

8. processus itératif compliqué dont l’article ne donne qu’un résumé simplifié.

20

Figure 11 – schéma de l’algorithme follow-the-leader ; le seuil (threshold) est calculé par essai-erreur [14]

des catégories de consommateurs observées (distinguées suivant le nombre d’habitants, leurs si-tuations professionnelles et leurs salaires). Or, leur objectif était justement de promouvoir uncomportement éco-responsable en matière de consommation énergétique en exhibant des foyersayant des caractéristiques similaires mais des profils de consommation très dissemblables (si pos-

21

Figure 12 – Comparaison des méthodes de clustering présentées dans [14]

sible, l’un très gourmand en énergie, et l’autre plus modéré).

Dans une optique similaire d’optimisation de la qualité du clustering, [12] insiste sur l’impor-tance de la qualité des données analysées, qui doivent être particulièrement fiables si l’on veutque le partitionnement soit porteur de sens.

Par ailleurs, d’autres méthodes de partitionnement moins classiques font l’objet d’étudesspécifiques :

— [17] décrit des méthodes non hiérarchiques destinées à modéliser un mélange de donnéescontinues et catégorielles, en présentant leurs avantages et leurs inconvénients, avant d’enexposer une application aux données comportementales de consommation électrique defoyers résidentiels avec bootstrap.

— Dans [18], c’est toute une théorie sur la définition d’une distance sur des processus stochas-tiques qui est développée, afin de proposer une méthode de partitionnement de donnéesbasée non pas sur la métrique euclidienne mais sur une estimation statistique de la dis-tance ainsi définie ; cette théorie est ensuite appliquée au partitionnement de données devente aux enchères en ligne sur eBay, et permet de distinguer six stratégies d’enchèredifférentes, et d’en évaluer les chances de succès ; l’application de cette méthode est enfinrecommandée dans les cas où les données sont rares et irrégulières

Enfin, on peut se rappeler que le partitionnement de données n’est pas la seule techniquequi peut être appliquée aux données d’énergie. Des études statistiques classiques permettentégalement d’extraire des informations de données volumineuses, ce que propose par exemple [19]pour modéliser la consommation énergétique d’un grand nombre de bâtiments situés à Cam-bridge, Massachussets. Dans cet article, des régressions linéaires et des modèles gaussiens sont

22

appliqués pour modéliser la consommation des bâtiments, afin de permettre aux usagers de vi-sualiser leur profil de consommation énergétique et ses principales caractéristiques statistiquesau moyen d’une application destinée aux consommateurs.

Tous les résultats mentionnés ici n’ont pas nécessairement été utilisés dans la suite du stage,mais il me semblait important de présenter en toute généralité la théorie et la pratique de l’analysede données de consommation d’énergie avant de passer, enfin, à l’exploration des données deconsommation des trains SNCF.

3 Exploration et prétraitement

Une fois le contexte et les enjeux cernés et les outiles théoriques introduits, l’exploration desdonnées peut commencer. La SNCF nous a fourni les données rassemblées par son système detélé-relevage. Aux données mesurées par les compteurs sont ajoutées les informations sur l’engin.Il a d’abord fallu bien comprendre la signification de ces données, avant de pouvoir étudier lagéographie des lignes et écarter les données aberrantes.

3.1 Signification des données

Les compteurs mesurent, toutes les cinq minutes, plusieurs grandeurs physiques liées à latraction du train :

— la date et l’heure, afin de fournir un repère temporel— les coordonnées GPS (WGS84) du train pour le repérer dans l’espace— sa vitesse instantanée au moment de la mesure— les grandeurs d’énergie échangée pendant les cinq dernière minutes

Comme vu précédemment, on distingue systématiquement énergie active et énergie réactive :lorsque le train est alimenté par un courant continu, l’énergie réactive est constamment nulle ;inversement, sur une ligne alimentée à l’alternatif, l’énergie réactive varie.

On distingue également l’énergie positive, qui est consommée par le train en phase d’accélération,et l’énergie négative, renvoyée dans la caténaire au moment du freinage ; si le train n’est pas équipéde freins de récupération, l’énergie négative est toujours nulle.

En recoupant ces deux distinctions, on obtient donc plusieurs grandeurs d’intérêt : l’énergieactive positive, l’énergie active négative, l’énergie active nette (positive − négative), l’énergieréactive positive, l’énergie réactive négative, et l’énergie réactive nette. Pour ma part, je n’aipas eu à distinguer énergies réactives positive et négative : j’ai donc concentré mon attentionsur les énergies actives (positive et négative), afin d’étudier la demande en traction en fonctionde la zone géographique (ce qui peut par exemple donner des indications quant au dénivelé lelong de la ligne), et de distinguer les périodes de freinage régénératif, ainsi que sur les énergiesnettes (active et réactive), afin de distinguer les alimentations en courants continu et alternatif,et d’évaluer le facteur de puissance des trains.

La Direction Énergie de la SNCF ajoute au fichier de mesures des données concernant letrain : ses caractéristiques techniques, son origine, sa destination, son tonnage, la distance par-courue au cours de sa mission en cours et le temps total de son parcours. Ces données m’ontpermis de trier les trains par couple origine-destination et par numéro d’immatriculation (afin

23

de distinguer chaque engin).

J’ai travaillé sur deux jeux de données distincts :— Un jeu de données regroupant des données de tous les trains reccueillies avant avril 2016,

comptabilisant un total de 936522 mesures, dont certaines sont obsolètes— Un jeu de données regroupant les données TGV reccueillies entre avril et juillet 2016, plus

actuel mais comportant moins de mesures pour certaines lignes (302015 mesures au total)

3.2 Agrégation géographique

3.2.1 Les outils techniques

L’Ifsttar a mis à ma disposition les outils informatiques que sont Python, Spark et Hadoop.Spark et Hadoop étaient relativement nouveaux pour moi, c’est pourquoi il me semble pertinentd’en donner une brève description.

Hadoop et Spark sont ce qu’on appelle des frameworks big data, c’est-à-dire des structureslogicielles génériques, construites de façon à conduire le développeur à respecter certains patronsd’architecture logicielle, jugés optimaux pour l’analyse de mégadonnées. Hadoop est une infra-structure de données distribuées, qui distribue les mégadonnées à travers plusieurs serveurs viason composant de stockage HDFS (Hadoop Distributed File System), tout en permettant d’yaccéder comme dans un système de fichiers classique. Le Grettia dispose actuellement de cinqserveurs ou “machines virtuelles”, capables d’enregister des données et de faire des calculs simul-tanés, et gérés à l’aide du système HDFS de Hadoop.

Figure 13 – Comparatif des fonctionnements de Hadoop et Spark [20]

Spark, quant à lui, permet de travailler avec ces données distribuées de manière ultra-rapideen recourant au calcul parallèle : au lieu d’effectuer les opérations les unes après les autres, elles

24

sont effectuées le plus simultanément possible, ce qui permet de travailler en temps quasi-réel.Pour cela, Spark stocke les données utiles en cache dans des ensembles de données distribuésrésilients (en anglais Resilient Distributed Dataframes ou RDD), ce qui lui évite d’avoir à inter-agir avec le serveur à chaque opération.

Autrement dit : Le système MapReduce de Hadoop lit les données stockées par HDFS, effec-tue une opération, stocke le résultat via HDFS, relit les données, exécute l’opération suivante,et ainsi de suite. Spark est plus rapide : il lit les données et les stocke en cache sous formede RDD, effectue toutes les opérations demandées, et renvoie le résultat au serveur. CependantSpark n’ayant pas de système de gestion de fichier propre, on lui associe le système HDFS deHadoop. Ainsi les deux frameworks se complètent et permettent une analyse efficace des donnéesvolumineuses.

Dans mon cas, j’utilisais Spark dans un notebook Python, hébergé sur machine virtuelle.

3.2.2 Mise en forme des données

La première étape de mon travail a naturellement consisté à mettre les données sous uneforme que je pouvais exploiter. Une fois mon premier jeu de données mis en ligne sur les ma-chines virtuelles, quelques requêtes SQL 9 dans python m’ont permis de trier les mesures enfonction des missions sur lesquelles elles avaient été prélevées. Cela fait, j’ai pu effectuer quelquesprétraitements : mettre les mesures aux formats adéquats (dates, nombres réels, châınes de ca-ractères...) et effectuer quelques statistiques de base : dans le premier jeu de données qui m’a étéconfié, 31% des mesures ont été effectuées alors que le train était à l’arrêt (en gare, en technicentreou sur les voies), et les couples origine-destination (que j’appellerai indifféremment � lignes �)comportaient entre 2 et 13018 mesures. Certaines lignes ne pouvaient donc pas faire l’objet d’uneétude statistique, mais celles présentant le plus de mesures restaient largement exploitables.

Après ce premier tri, le travail se fait systématiquement pour un seul couple origine-destinationà la fois. Il est naturellement possible de globaliser le traitement, mais je m’en suis tenu à re-garder les lignes une par une pour commencer. Pour la ligne considérée, il reste à discerner lesdifférents trajets qui ont relié la gare de départ à la gare d’arrivée : en effet, les mesures sontdonnées sans distinction de mission, et c’est donc à moi de faire cette différenciation. Pour cela,j’ai commencé par ordonner les données chronologiquement et les trier par numéro d’engin (ou� matricule �), puis j’ai utilisé plusieurs critères de découpage :

— critère technique : si le matricule du train change, cela signifie qu’on a changé d’engin etdonc de mission

— critère temporel : si deux mesures sont espacées de plus de cinq minutes, cela signifie quele compteur a été éteint et donc que la mission a changé

— critère spatial : si deux mesures successives sont séparées par une distance qui ne peut êtreparcourue par un train en cinq minutes (par exemple si dist(mesn,mesn+1) > 300 · vmaxoù vmax = 100 m/s, ce qui est supérieur à la vitesse maximale autorisée même pour unTGV, qui vaut 89 m/s), alors c’est que l’on a changé de mission

Ici, j’utilise une variante de la formule haversine, qui permet de calculer les distances à partirdes coordonnées WGS84 : en notant ϕ la latitude et λ la longitude,

9. Structured Query Language ou langage de requête structurée, il s’agit d’un langage informatique permettantd’exploiter, manipuler, définir et contrôler le contenu de bases de données relationnelles (i.e. organisées sousforme de tableaux à deux dimensions)

25

dist(mes1,mes2) = RTerre · arccos (sin(ϕ1) · sin(ϕ2) + cos(ϕ1) · cos(ϕ2) · cos(λ1 − λ2)) . (19)

Une fois ce travail de séparation fait, il est possible de visualiser les différentes missions surune carte (légèrement déformée : je me suis contenté de représenter les coordonnées WGS84, uneprojection de type Mercator ou Lambert n’étant pas indispensable pour visualiser les données).J’ai donc pu faire un premier affichage, qui a révélé de nombreuses erreurs de repérage GPS et/oude classification des couples origine-destination par le fournisseur de données. Il est égalementpossible que certaines mesures manquantes aient été ajoutées par le fournisseur de données,via une méthode d’interpolation linéaire. J’ai finalement pris le parti de construire une abscissecurviligne afin d’écarter les données aberrantes et de passer d’un problème à deux dimensionsd’espace à un problème à une seule dimension d’espace plus pertinente.

Figure 14 – Carte de la ligne Montpellier-Paris avant détection d’erreurs

3.2.3 Construction d’un Point Kilométrique (P.K.)

Une fois les missions isolées, construire un point kilométrique (abrégé pk) s’avérait judicieux :il s’agit d’une abscisse curviligne qui retrace le parcours du train entre sa gare de départ et sagare d’arrivée, et qui allait me permettre de situer les trains les uns par rapport aux autresdans un repère spatial à une dimension. Ainsi, si une zone de la ligne de chemin de fer présentedes caractéristiques énergétiques particulières indépendantes de la conduite du train (dénivelés,surconsommation sur la sous-station, etc), il est possible de les visualiser sur une courbe donnantla consommation énergétique en fonction du pk, par exemple.

Par ailleurs, l’utilisation d’un point kilométrique permet d’écarter certaines données aber-rantes, comme on le verra dans la section consacrée à la détection d’erreurs.

Pour ce faire, il me fallait définir l’origine de la ligne, un point qui ne varierait pas sui-vant les missions. J’ai donc téléchargé le fichier (en libre accès) référençant les gares SNCF parnoms et coordonnées WGS84. À partir de là, il suffisait de définir l’origine O de la ligne commeétant le point fixe où se trouve sa gare de départ. Ce point serait le même pour toutes les missions.

26

Ensuite, pour chaque trajet, on construit par récurrence une suite (pkn)0≤n≤N−1 où N estle nombre de mesures enregistrées au cours du trajet observé. On utilise pour cela la suite(un)0≤n≤N−1 des mesures enregistrées au cours du trajet observé. On définit alors le pk par{

pk0 = dist(O, u0)

pkn+1 = pkn + dist(un, un+1). (20)

Cette méthode permet d’assigner à chaque trajet une abscisse curviligne qui lui correspond.Si elle m’a semblé la plus indiquée compte tenu des données (on approche l’intégrale de la vitessepar la somme des distances parcourues), elle présente deux défauts à prendre en compte :

— le pas de temps étant fixe et relativement élevé (5 minutes), il peut y avoir un écart entrela distance calculée (qui est une distance à vol d’oiseau entre deux points séparés par 5minutes de trajet), et la distance réelle parcourue (toujours supérieure, strictement lorsquela trajectoire parcourue pendant ces 5 minutes est incurvée)

— la méthode par sommation fait que les erreurs s’accumulent et s’amplifient au fil du trajet,et on peut donc observer des écarts conséquents en fin de parcours

Cependant, encore une fois, il s’agissait de la méthode la plus indiquée compte tenu desdonnées auxquelles j’avais accès.

Une fois le pk construit, j’ai pu mettre en place un algorithme de détection d’anomalies basésur le point kilométrique, en vue d’exploiter plus finement les données à ma disposition.

3.3 Détection d’erreurs et rééchantillonnage

3.3.1 Détection d’erreurs

Dans un premier temps, j’ai intuitivement cherché à comparer les trajectoires les unes auxautres en utilisant une distance de type Lp ou Fréchet 10, mais cela nécessitait d’interpolerlinéairement l’ensemble des grandeurs mesurées, et il fallait encore définir une trajectoire deréférence à laquelle comparer mes données afin de déterminer quelles trajectoires étaient fau-tives. Après avoir passé un temps conséquent à étudier cette question (qui posait égalementd’importants problèmes aux niveaux de la propagation d’erreurs dans la définition d’une trajec-toire de référence, ainsi que du code à implémenter), je me suis résolu à attaquer le problèmede la détection d’erreurs sous un autre angle, moins intuitif, moins mathématique, mais pluspragmatique et pratique.

En observant plus attentivement les pk des différents trajets, je me suis aperçu que certainstrajets “commençaient” à plus de 100 km de leur point de départ supposé, et que d’autres pre-naient fin après à peine 10 km parcourus. Afin d’écarter ces trajets incomplets, j’ai simplementécrit un code qui supprimait les missions dont la première valeur de pk dépassait les 10 km etcelles dont la dernière valeur de pk était en-dessous de 10 km.

Enfin, l’absence de mesures sur de longues périodes à conduit le fournisseur de données à in-terpoler jusqu’aux coordonnées GPS des trains (ce qui donne les longues cordes qui coupent l’arc

10. Si A : [0, 1] → S et B : [0, 1] → S sont deux chemins dans un espace S muni d’une distance d, et si onnote P = {α ∈ C0([0, 1], [0, 1]) ; α croissante surjective} l’ensemble des reparamétrisations de [0, 1], la distancede Fréchet entre les courbes A et B est donnée par

F (A,B) = infα,β∈P

maxt∈[0,1]

d(A(α(t)), B(β(t)))

27

de cercle sur la ligne Montpellier-Paris en figure 14). Ces interpolations peuvent être détectéesassez aisément car elles introduisent des erreurs grossières dans le calcul du pk. Ainsi, le pk finalpkN−1 (censé correspondre à la gare d’arrivée) est alors très différent de celui auquel on pourraits’attendre. Il m’a donc suffi de déterminer quel était le pk final “normal” (celui qui apparâıt leplus souvent, avec une marge d’erreur entre ±10 et ±30 km selon les lignes), et d’écarter lestrajets dont les valeurs de pkN−1 ne correspondaient pas.

Figure 15 – Carte de la ligne Montpellier-Paris après détection d’erreur

En plus d’éliminer la quasi-totalité des erreurs, cette méthode permet de ne conserver que destrajets de longueurs comparables (ce qu’on est en droit de demander lorsqu’on observe une lignede chemin de fer fixée), et ainsi de procéder à un rééchantillonnage spatial qui fasse sens. Eneffet, afin de procéder à une analyse poussée des données, chaque trajet d’une même ligne seraéchantillonné spatialement dans des vecteurs de même taille, ce qui rend toute étude plus facile 11.De plus, les caractéristiques géographiques des trajets sont quasiment invariantes d’un trajet àun autre, alors que leurs caractéristiques temporelles sont fluctuantes ; ainsi, pour reccueillir desinformations sur la ligne, travailler sur des données géographiques semble plus adéquat que degarder les données temporelles.

En observant la figure 15, on constate que les erreurs les plus grossières ont été écartées, bienque quelques interpolations (les lignes droites qui “coupent” le virage aux alentours de Lyon)subsistent. Ayant déjà passé un temps très conséquent à réfléchir sur cette détection d’erreur,j’ai décidé de m’en tenir à cette méthode pour commencer, et de voir quels résultats elle mepermettrait de visualiser.

3.3.2 Visualisation en fonction du temps

Une fois les erreurs les plus importantes écartées, et avec l’aide de la nouvelle grandeur du pk,il est possible de visualiser plusieurs courbes, comme par exemple les courbes donnant le pk enfonction du temps ou des coordonnées GPS. On constate ainsi sur le diagramme pk-temps (figure

11. on travaille ainsi dans RD avec D fixé, alors que jusqu’à présent on travaillait dans RN où N est conditionnépar la durée τ du trajet : N ' τ

∆t, avec ∆t = 5 min

28

16) des disparités suivant les trajets, certains (deux en particulier) s’étant effectués plus lente-ment que d’autres. Les écarts de temps de trajet peuvent être dûs à des problèmes techniquesvariés mais aussi, comme mentionné précédemment, à un ralentissement suite à une éventuellesurconsommation au niveau d’une sous-station, lorsqu’un trop grand nombre de trains sont si-multanément alimentés par celle-ci.

Figure 16 – Point kilométrique en fonction du temps (en minutes) sur la ligne Nancy-Paris

En revanche, il est encore trop tôt pour visualiser les données d’énergie de façon significative :on dispose actuellement des mesures de l’énergie consommée dans un intervalle de 5 minutes(autrement dit, une énergie représentée dans un repère de temps), mais il ne ressortirait riend’un diagramme énergie - temps, pour la simple raison que le temps de parcours est bien tropdépendant des circonstances particulières du trajet en cours (comme le montre la figure 16),alors que la ligne de chemin de fer change peu d’une mission à l’autre (seuls quelques aiguillagespeuvent changer légèrement d’un trajet à un autre, mais les points d’arrivée et de départ et lamajorité du trajet sont invariants). Pour visualiser les données d’énergie, il faudrait donc lesrééchantillonner pour les faire correspondre non pas au temps mais au point kilométrique.

3.3.3 Rééchantillonnage spatial de l’énergie

Les données d’énergie fournies par le système SOCLE sont calculées comme suit : le compteurenregistre l’énergie qui a été consommée pendant les cinq dernières minutes. On a donc accès, àchaque mesure, à la grandeur d’énergie temporelle W définie par :

Wn =

∫ n∆t(n−1)∆t

P (t)dt. (21)

(en prenant par convention W0 = 0 : à l’instant initial le train n’a pas encore commencé àconsommer d’énergie).

Ces données sont donc liées au repère temporel, et pas au repère spatial. Si on tente de lesreprésenter en fonction du point kilométrique avec un simple changement de variable, on obtient :

E(pk) = W (φ(pk)). (22)

29

où E(pk(t)) = W (t) et φ est la réciproque de la fonction pk(t). Cependant, comme on peut leconstater sur la figure 16, la fonction pk(t) n’a aucune raison d’être injective (elle est constantedès que le train est à l’arrêt), et la fonction φ n’est donc pas correctement définie. Il faut doncprocéder autrement pour représenter l’énergie comme une fonction du point kilométrique.

Pour cela, on commence par découper la ligne en tronçons (Sk)1≤k≤D de longueur fixe notée∆s. Pour 1 ≤ n ≤ N , on note Un le tronçon de ligne parcouru entre pkn−1 et pkn, c’est à direentre t = (n − 1)∆t et t = n∆t. Puis on calcule, pour chaque k, l’énergie Ek consommée sur letronçon Sk, de la façon suivante :

Ek =

∫Sk

dE

dsds '

N∑n=1

Wn ·Mk,n

pkn − pkn−1. (23)

où

Mk,n = Leb ([pkn−1; pkn] ∩ [(k − 1)∆s; k∆s])= Leb ([(k − 1)∆s ∨ pkn−1; k∆s ∧ pkn])= (k∆s ∧ pkn − (k − 1)∆s ∨ pkn−1)+

Mk,npkn − pkn−1

est donc la proportion de Wn attribuée au tronçon Sk.

M2,4 M2,5M2,6 M3,6

U6U5U4U3U2U1

Figure 17 – Schéma du rééchantillonnage spatial de l’énergie

Autrement dit : pour chaque intervalle de temps [(n−1)∆t, n∆t], on divise l’énergie dépenséependant cet intervalle par la distance parcourue entre n∆t et (n + 1)∆t (dn = pkn − pkn−1).On obtient ainsi une � énergie par mètre � (homogène à une force). On multiplie ensuite cetteénergie par mètre par la distance parcourue dans le tronçon Sk au cours de ce même intervallede temps (qui est Mk,n), et on obtient la part de l’énergie consommée dans le tronçon Sk entre(n − 1)∆t et n∆t. En faisant ainsi pour tous les intervalles de temps pendant lesquels le trains’est trouvé dans le tronçon de ligne Sk, on obtient l’énergie totale consommée sur ce tronçon(voir figure 17 : les points rouges délimitent les tronçons Sk, les points violets sont les pointsauxquels ont lieu les mesures).

Une fois cette transformation faite, on peut agréger les données de façon à les rendre plusfacilement utilisables par la suite : chaque trajet est divisé en tronçons de longueur ∆s fixe, etpour chaque tronçon, on observe :

— les coordonnées d’entrée dans le tronçon (ϕin, λin)— les coordonnées de sortie du tronçon(ϕout, λout)— le pk d’entrée dans le tronçon pkin— le pk de sortie du tronçon pkout— l’énergie active positive dépensée dans ce tronçon E+

30

— l’énergie active négative dépensée dans ce tronçon E−— l’énergie active nette dépensée dans ce tronçon Ea— l’énergie réactive nette dépensée dans ce tronçon Er

Les points kilométriques d’entrée et de sortie du tronçon étant calculés par simple barycentreentre les plus proches voisins :

pkin/out =pkn0−1 · dist((ϕin/out, λin/out), un0) + pkn0 · dist((ϕin/out, λin/out), un0−1)

dist((ϕin/out, λin/out), un0) + dist((ϕin/out, λin/out), un0−1). (24)

où n0 est tel que le train est entré (resp. sorti) dans le tronçon entre (n0 − 1)∆t et n0∆t.

4 Exploitation des données

4.1 Visualisations

4.1.1 Visualisation en fonction de l’espace

Grâce aux prétraitements présentés précédemment, il est possible de visualiser les donnéesd’énergie associées aux trains, en fonction du point kilométrique, sous forme de fonctions constantespar morceaux (une valeur par tronçon). J’ai ainsi pu afficher, pour les lignes Nancy-Paris (1er

jeu de données), Paris-Marseille, Paris-Montpellier et Montpellier-Paris (2nd jeu de données),les graphes donnant les différentes grandeurs d’énergie en fonction du point kilométrique. J’aireprésenté en figure 18 les énergies active positive (en haut à gauche), active négative (en hautà droite), active nette (en bas à gauche) et réactive nette (en bas à droite), pour la ligne Nancy-Paris (cette ligne comportait 13018 mesures réparties en 230 trajets, dont 57 trajets exploitables).

Figure 18 – Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris avantavril 2016

Ces quatre graphes son porteurs de nombreuses informations, mais la clause de confidentialitésignée avec la SNCF m’interdit de les divulguer dans cette version du rapport.

31

Ces graphes ont donc posé au moins autant de questions qu’ils ont apporté de réponses, etc’est tout naturellement que je me suis proposé d’étudier les données plus récentes concernant laligne Nancy-Paris, afin de vérifier les hypothèses des scientifiques SNCF. C’est pour cette raisonque la SNCF m’a fourni un second jeu de données qui recensait les données TGV ultérieures aumois d’avril 2016 (avec des couples origine-destination comportant entre 1 et 36157 mesures).J’ai donc effectué le même travail pour ces données, et obtenu les graphes de la figure 19 12.

Figure 19 – Graphes des données d’énergie en fonction du pk pour la ligne Nancy-Paris aprèsavril 2016

À nouveau, les observations que j’ai pu faire à ce niveau sont confidentielles. Il est toutefoisutile de mentionner que les questions soulevées par le premier jeu de données ont toutes trouvédes réponses satisfaisantes lors de la visualisation de ce second échantillon.

4.1.2 Diagrammes en bôıtes successifs

Sur la figure 18, le nombre de trajectoires rend les différents graphes dif

Documents

Analyse des donn ees de consommation electrique ...€¦ · La pr esente version de mon rapport de stage est pass ee par le ltre de la clause de con - dentialit e que j’ai sign