80
UNIVERSIT ´ E DES SCIENCES SOCIALES DE TOULOUSE MAGIST ` ERE D’ ´ ECONOMISTE-STATISTICIEN Rapport de stage de 1 re ann´ ee ethodes statistiques appliqu´ ees ` a la complexit´ e du trafic a´ erien ealis´ e par ROZ ` ES Sylvain Stage effectu´ e au cours de la p´ eriode du 6 Juin au 31 Aoˆ ut 2006 ` a l’ ´ Ecole Nationale de l’Aviation Civile Sous la direction de M. GUITTET K´ evin Enseignant-Chercheur ` a la Sous Direction des ´ Etudes et de la Recherche Appliqu´ ee Mots clefs : Complexit´ e du trafic a´ erien (densit´ e dynamique), Analyse en Composantes Prin- cipales, M´ ethode de Clustering, R´ egression Logistique Polytomique Ordonn´ ee.

Methodes statistiques appliqu´ ees´ a la` complexite du

  • Upload
    others

  • View
    6

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Methodes statistiques appliqu´ ees´ a la` complexite du

UNIVERSITE DES SCIENCES SOCIALES DE TOULOUSE

MAGISTERE D’ECONOMISTE-STATISTICIEN

Rapport de stage de1re annee

Methodes statistiques appliqueesa lacomplexite du trafic aerien

Realise par ROZES Sylvain

Stage effectue au cours de la periode du6 Juin au31 Aout 2006a l’Ecole Nationale de l’Aviation Civile

Sous la direction de M. GUITTET KevinEnseignant-Chercheur a la Sous Direction desEtudes et de la Recherche Appliquee

Mots clefs : Complexite du trafic aerien (densite dynamique), Analyse en Composantes Prin-cipales, Methode deClustering, Regression Logistique Polytomique Ordonnee.

Page 2: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 3: Methodes statistiques appliqu´ ees´ a la` complexite du

Je tiens tout d’aborda remercier la personne qui m’a donne la possibilite d’obtenir ce stage.Un camarade de ma promotion, Daniel COUBLUCQ, a eu la gentillesse de partager le resultatde ses recherches afin de m’aidera trouver mon stage.

Je voudrais remercier mon maıtre de stage, M. GUITTET Kevin, pour m’avoir donne l’occa-sion de realiser mon stage au sein de la Sous Direction desEtudes et de la Recherche Appliqueea l’ Ecole Nationale de l’Aviation Civile. Il a pris le temps de repondrea toutes mes questions etde m’aidera resoudre les divers problemes que j’ai rencontres. Enfin, je voudrais le remercierd’avoir participe a la redaction eta l’impression de ce rapport de stage.

Page 4: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 5: Methodes statistiques appliqu´ ees´ a la` complexite du

TABLE DES MATI ERES

Conditions d’obtention du stage et choix du sujet iii

Conditions generales de travail v

Synthese du rapport vii

Liste des abreviations et sigles ix

Liste des tableaux xi

Table des figures xiii

Chapitre pr eliminaire xv

Introduction g enerale 1

I Les donnees 5I.1 Presentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 5I.2 Manipulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .6I.3 Mise en place . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

II Analyse descriptive des donnees 9II.1 Analyse Factorielle : l’ACP . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 9

II.1.1 Introduction a l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . .. . 9II.1.2 But de l’ACP pour S2D2 . . . . . . . . . . . . . . . . . . . . . . . . . . 10II.1.3 Analyse d’un secteur . . . . . . . . . . . . . . . . . . . . . . . . . . .. 10II.1.4 Analyse sur une reunion de trois secteurs . . . . . . . . .. . . . . . . . 12II.1.5 Resultat de l’ACP . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13

II.2 Methode deClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13II.2.1 Introduction auClustering . . . . . . . . . . . . . . . . . . . . . . . . . 13II.2.2 But duClusteringpour S2D2 . . . . . . . . . . . . . . . . . . . . . . . 14

Page 6: Methodes statistiques appliqu´ ees´ a la` complexite du

ii TABLE DES MATIERES

II.2.3 Classification Par Partitionnement (k-Means Clustering) . . . . . . . . . 14II.2.4 Classification Ascendante Hierarchique (Tree Clustering) . . . . . . . . . 17II.2.5 Resultat duClustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

II.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19

III Analyse pr edictive des donnees 21III.1 Introduction a la regression logistique . . . . . . . . .. . . . . . . . . . . . . . 22

III.1.1 Modele de regression logistique . . . . . . . . . . . . . .. . . . . . . . 22III.1.2 Choix du modele logistique ordonne . . . . . . . . . . . .. . . . . . . . 25

III.2 Application aux donnees . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . 26III.2.1 Analyse d’un echantillon . . . . . . . . . . . . . . . . . . . . .. . . . . 26III.2.2 Procedures automatiques de selection des variables . . . . . . . . . . . . 29III.2.3 Comparaison des trois echantillons . . . . . . . . . . . .. . . . . . . . 32

III.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 36

Conclusion 37

Bibliographie 39

Annexes 41

A Detail des indicateurs 41A.1 Les indicateurs basiques . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 41A.2 Les indicateurs de Chatterji et Sridhar . . . . . . . . . . . . . .. . . . . . . . . 41A.3 Les indicateurs inspires par Delahaye et Puechmorel . .. . . . . . . . . . . . . 43

A.3.1 La densite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44A.3.2 La divergence et la convergence . . . . . . . . . . . . . . . . . . .. . . 44A.3.3 La sensibilite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .45A.3.4 Les indicateursSd+ etSd− . . . . . . . . . . . . . . . . . . . . . . . . 45

A.4 Les indicateurs “utilises” par RFM pour la PRU . . . . . . . .. . . . . . . . . . 47A.5 Les indicateurs inspires de CREED . . . . . . . . . . . . . . . . . .. . . . . . . 48

B Liste des algorithmes 51B.1 Nom des secteurs possedant les trois etats . . . . . . . . . .. . . . . . . . . . . 51B.2 Extraction d’un secteur au hasard parmi les secteurs quiont trois etats . . . . . . 52B.3 Constitution d’un vecteur contenant l’etat du secteur. . . . . . . . . . . . . . . 52B.4 Realisation d’un echantillon de deux milles points parmi tous les secteurs a trois

etats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52B.5 Exemple d’utilisation de la methode “forward” . . . . . . .. . . . . . . . . . . 53B.6 Criteres de selection du “bon” nombre de clusters . . . .. . . . . . . . . . . . . 53

C Exemple de representation de cluster 57

Page 7: Methodes statistiques appliqu´ ees´ a la` complexite du

iii

CONDITIONS D ’ OBTENTION DU STAGE ET

CHOIX DU SUJET

Obtention du stage

J’ai choisi d’integrer le Magistere d’Economiste-Statisticien car cette formation offre denombreux et multiples debouches. Cependant, je n’ai pas une idee precise sur l’emploi que jesouhaite occuper a l’avenir. Dans ces circonstances, le choix de la structure d’accueil pour monstage n’a pas ete facile. J’ai alors debute, en janvier,par l’envoi de lettres spontanees a plusieursbanques et assurances toulousaines. Une seule reponse favorable m’est parvenue de la MACIF, cequi m’a permis d’obtenir mon premier entretien. Malheureusement, mon profil n’etait pas celuirecherche. J’ai alors poursuivi ma recherche en postulantspontanement dans des entreprises etdes administrations a Toulouse et a Agen (47), pres de mondomicile parental. Malgre toutes mesdemandes, je n’ai receptionne que des refus jusqu’au milieu du mois de mai. C’est alors qu’uncamarade m’a fait parvenir l’adresse electronique d’un contact a l’Ecole Nationale de l’AviationCivile (ENAC). Apres m’y etre presente librement, j’aipu rencontrer le responsable du stage.

Choix du sujet

Lors de l’entretien, M. GUITTET m’a decrit ses fonctions, son poste et le role des labo-ratoires de recherches de l’ENAC. Il m’a propose d’occuperle poste d’assistant-chercheur. Letheme de mon stage est un approfondissement d’une de ses etudes sur le trafic aerien, intitulee“Sector Status and Dynamic Density” (S2D2). Il m’a ensuite expose les outils mathematiques etle materiel que j’utiliserais durant toute ma periode de stage.

Page 8: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 9: Methodes statistiques appliqu´ ees´ a la` complexite du

CONDITIONS G ENERALES DE TRAVAIL

Trajet

Une grande distance separe le lieu de mon travail a celui dema residence. Pour m’y rendre,je dois emprunter une fois le metro et deux fois la ligne de bus. En fait, je dois compter environtrois quarts d’heure de transport en commun, si je ne rate pasles correspondances.

Logiciels et materiels informatiques disponibles

Un bureau climatise a ete mis a ma disposition durant toute la periode de stage. Je travaillaissur un Pentium III (Coppermine) muni d’un processeur de700 MHz et d’une memoire cachede 256 Mo. Le systeme d’exploitation installe etait Linux (ou GNU/Linux) qui a comme ca-racteristique d’etre libre, multitache, multi-plate-forme et multi-utilisateur de type Unix. C’estpourquoi ma machine etait constamment branchee en reseau avec le reste du laboratoire. C’etaitun moyen rapide et simple d’echanger nos donnees et nos id´ees. Ce type de systeme m’etaitcompletement inconnu et par consequent les debuts de sa manipulation se sont averes difficiles.J’ai utilise differents logiciels sous Linux comme Emacs(traitement de texte), Xfig (outil inter-actif de dessin et de manipulation d’objets) et The GIMP (programme de traitement d’images).Enfin, R est le logiciel statistique employe a la manipulation des donnees. Mes acquis en SAS,MATLAB et en programmation, appris pendant mes cours d’informatique et de mathematiques,m’ont permis de comprendre rapidement son utilisation. Monmaıtre de stage m’a propose derediger mon rapport en LATEX, ce que j’ai accepte instantanement afin de decouvrir une alterna-tive aux logiciels traditionnels de traitement de texte.

Relations humaines

Mon stage m’a permis de cotoyer plusieurs personnes qui occupaient des postes differents :enseignant-chercheur, informaticien, stagiaire. Elles m’ont toutes tres bien accueilli. Elles ont

Page 10: Methodes statistiques appliqu´ ees´ a la` complexite du

vi CONDITIONS GENERALES DE TRAVAIL

pris le temps de resoudre, avec moi, les problemes auxquels j’ai du faire face. Le dejeuner per-mettait de nous retrouver, de discuter des resultats des recherches en cours et de commenter lesconferences auxquelles ils avaient assistees. Tout cecise couronnait par la traditionnel cafe a lacafeteria. Pour evacuer tout le stress, mon maıtre de stage eut la bonne idee de me convier tousles mardi, entre12h et14h, a jouer au football. La, plusieurs services de l’ENAC sereunissaientpour disputer amicalement des matches.

Page 11: Methodes statistiques appliqu´ ees´ a la` complexite du

vii

SYNTH ESE DU RAPPORT

La hausse du trafic aerien mondial accentue en permanence lesefforts fournis par le personnelde l’aviation civile afin de maintenir un niveau de securit´e optimal. La tache du controleur

aerien est la surveillance des vols d’aeronefs sur plusieurs secteurs, dans le but d’eviter lesconflits. Neanmoins, pour soulager sa charge de travail, onpeut vouloir modeliser le trafic pourl’assister dans ses decisions. L’objectif de mon stage estalors d’evaluer si les instruments uti-lises a cet effet sont performants. De cette maniere, on souhaite mettre en evidence une relationentre les indicateurs de complexite et les decisions prises par le controleur aerien. Dans un pre-mier temps, on a utilise l’analyse descriptive des donnees afin d’apporter une idee precise sur ladistribution des variables. Un premier outil, l’Analyse enComposantes Principales, permet derepresenter spacialement des relations entre ces differents indicateurs. Mais la construction denouveaux facteurs n’a pas ete possible car il reste trop decorrelation entre eux. Un deuxiemeoutil, la methode declustering, permet de faire apparaıtre des structures sans pour autant lesexpliquer. Cependant, on a pas pu reconnaıtre la repetition de situation de trafic au cours d’unejournee etudiee. Le resultat de l’analyse descriptiverevele alors l’existence de bruits dans lesdonnees. Dans un second temps, l’utilisation de l’analysepredictive des donnees permet deprevoir le comportement de l’etat du secteur. On a souhaite elaborer un modele a l’aide de laregression logistique a partir de plusieurs echantillons. Mais, le resultat de cette analyse montreun probleme sur les variables retenues. Elles ne sont pas adaptees pour decrire chaque jeu dedonnees. Par consequent, on n’a pas reussi a realiser un modele general afin de predire le statutfutur du secteur aerien. En conclusion, les indicateurs decomplexite ainsi construits ne sont pasadaptes a la modelisation du trafic aerien.

Page 12: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 13: Methodes statistiques appliqu´ ees´ a la` complexite du

ix

L ISTE DES ABREVIATIONS ET SIGLES

ENAC : Ecole Nationale de l’Aviation Civile

LOG : Laboratoire d’Optimisation Globale

LEEA : Laboratoire d’Economie et d’Econometrie de l’Aerien

SDER : Sous Direction desEtudes et de la Recherche appliquee

CENA : Centre d’Etudes de la Navigation Aerienne

EUROCONTROL : Organisation europeenne pour la securite de la navigation aerienne

NASA : National Aeronautics and Space Administration

S2D2 : Sector Status and Dynamic Density

ACP : Analyse en Composantes Principales

AIC : Akaike Information Criterion

DGAC : Direction Generale de l’Aviation Civile

DSNA : Direction des Services de la Navigation Aerienne

Page 14: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 15: Methodes statistiques appliqu´ ees´ a la` complexite du

xi

L ISTE DES TABLEAUX

I.1 Liste des indicateurs implementes dans S2D2 . . . . . . . .. . . . . . . . . . . 6

III.1 Coefficients des predicteurs lineaires et les constantes entre les classes . . . . . . 27III.2 Parametres supprimes du modele initial . . . . . . . . .. . . . . . . . . . . . . 31III.3 Coefficients des predicteurs lineaires et les constantes entre les classes . . . . . . 33III.4 Comparaison des trois echantillons a partir de la m´ethode backward . . . . . . . 34III.5 Comparaison des trois echantillons a partir de la m´ethode forward . . . . . . . . 35III.6 Resultat de la regression sur la fusion des trois echantillons . . . . . . . . . . . . 36

A.1 Statistiques descriptives pour les sensitivites “parcomposante” . . . . . . . . . . 46

Page 16: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 17: Methodes statistiques appliqu´ ees´ a la` complexite du

xiii

TABLE DES FIGURES

1 Complexite du trafic aerien . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 22 Configuration des secteurs . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 3

II.1 Eboulis des valeurs propres pour l’etude d’un secteur . . . .. . . . . . . . . . . 11II.2 Eboulis des valeurs propres pour l’etude de trois secteurs. . . . . . . . . . . . . 12II.3 Criteres de selection du nombre de clusters pour l’analyse d’un secteur . . . . . . 16II.4 Criteres de selection du nombre de clusters pour l’etude de trois secteurs . . . . . 16II.5 Arbre hierarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 18II.6 Hierarchie avec le critere “complete” . . . . . . . . . . . .. . . . . . . . . . . . 18

III.1 Exemple de distribution des reponses . . . . . . . . . . . . .. . . . . . . . . . . 26

C.1 Representation de deux clusters pour un secteur de 8 avions fixes . . . . . . . . . 58C.2 Representation de deux clusters pour trois secteurs a8 avions fixes . . . . . . . . 58

Page 18: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 19: Methodes statistiques appliqu´ ees´ a la` complexite du

CHAPITRE PR ELIMINAIRE

La Direction Generale de l’Aviation Civile (DGAC) est entree depuis quelques annees dansune periode de reorganisation, notamment motivee par lanecessaire separation “operateur /

regulateur”. Au sein meme de la Direction des Services de la Navigation Aerienne (DSNA), cer-tains services (dont la SDER, ex CENA, ou j’ai realise monstage) sont en pleine restructuration,et il est bien difficile de presenter un organigramme “stable”. La presentation qui suit s’appuiedonc sur l’ancienne organisation1, mais des notes de bas de page preciseront la situation actuelledes differentes services.

Mon stage s’est donc effectue au Laboratoire d’Economie et d’Econometrie de l’Aerien, leLEEA, dans les locaux de l’Ecole Nationale de l’Aviation Civile, l’ENAC, mais pour le comptede la Sous-Direction desEtudes et de la Recherche Appliquee, la SDER, qui est un service de laDSNA. Cet enchevetrement de sigles et de services se justifie par le statut particulier du LEEA,qui est l’un des laboratoires communs a l’ENAC et a la SDER2.

L’ Ecole Nationale de l’Aviation Civile est un etablissementpublic3 sous tutelle du Ministeredes Transports, de l’equipement, du tourisme et de la mer. L’ENAC fut creee en1948 a Paris.Elle etait dans un premier temps situee sur le site d’Orly au sud de Paris, pour ensuite s’installera Toulouse en1968. L’ENAC a pour mission d’assurer la formation initiale et leperfectionne-ment des cadres et principaux acteurs de l’aviation civile.Veritable “universite” de l’AviationCivile, l’ENAC propose une grande diversite d’activites, destinees a repondre aux besoins dessecteurs public ou prive, en France et a l’etranger. Les domaines de competence ENAC ont tousun denominateur commun : le systeme aviation civile sous ces differentes facettes.

1En particulier, on parlera souvent de CENA au lieu de SDER2Il n’existe en fait plus officiellement de laboratoire commun entre ENAC et SDER, mais la realite de la paillasse

evolue moins vite que celle des organigrammes.A l’origine, les laboratoires communs ont ete crees pour permettreaux entites de recherche d’atteindre une masse critique, en regroupant deux types de populations : des “ensei-gnants/chercheurs”, cote ENAC, et des “chercheurs/experts” cote CENA.A son heure de gloire, le LEEA a ainsicompte jusqu’a5 titulaires.

3Etablissement public a caractere administratif

Page 20: Methodes statistiques appliqu´ ees´ a la` complexite du

xvi CHAPITRE PRELIMINAIRE

L’ENAC a su acquerir et faire reconnaıtre ses competences dans un certain nombre de do-maines qui lui sont souvent specifiques. Les enseignants, les chercheurs, les laboratoires et lesmoyens pedagogiques qui soutiennent ces competences sont repartis dans les 5 departementsd’enseignement de l’ecole regroupes au sein de la direction des etudes de l’ENAC. Il y a5equipes de recherche a l’ENAC :

– Le Laboratoire d’Optimisation Globale (LOG).– Le Laboratoire d’Economie et d’Econometrie de l’Aerien (LEEA).– L’Unite de Recherche et d’Expertise sur les systemes de Communication, Navigation, Sur-

veillance (URE-CNS).– Le Laboratoire d’Automatique et de Recherche Operationnelle (LARA).– L’equipe de recherche en mathematiques et recherche op´erationnelle.

Le Laboratoire d’Economie et d’Econometrie de l’Aerien est un laboratoire commun auCentre d’Etude de la Navigation Aerienne et a l’Ecole Nationale de l’Aviation Civile. Cree enjuin 1999, il a pour but d’effectuer des etudes economiques et econometriques dans le domainede la navigation aerienne et du transport aerien.

Economie et performance de la navigation aerienne– Structure productive - fonction de cout– Tarification– Regulation et impacts de organisation sur les performances des systemes.

Economie du transport aerien– Tarification des infrastructures– Revenue management dans les compagnies aeriennes– Allocation des creneaux horaires.

Previsions de trafic– Prevision a court terme par des modeles auto-projectifs.– Prevision a long terme par la methode des scenarios– Previsions a moyen terme

Econometrie– Enseignement (Modele lineaire, series temporelles, variables qualitatives, previsions de

trafic)– Etudes specifiques pour la navigation aerienne (performance du controle aerien, estimation

d’inefficacites economiques)

La Sous Direction desEtudes et de la Recherche appliquee (SDER) est chargee , dans uncontexte europeen, d’imaginer, de concevoir, et de promouvoir le futur systeme de controle dutrafic aerien. C’est un service a competence nationale duministere charge des transports, rattachea la direction de la navigation aerienne de la direction g´enerale de l’aviation civile. Il est chargede recherches, d’experimentations et d’etudes dans le domaine de la navigation aerienne, tant au

Page 21: Methodes statistiques appliqu´ ees´ a la` complexite du

CHAPITRE PRELIMINAIRE xvii

niveau national qu’europeen. Ses travaux effectues dansun cadre multidisciplinaire portent surla gestion de la circulation aerienne, l’organisation de l’espace aerien, l’assistance automatiseeau controle, les moyens de communication et de surveillance, l’integration des systemes sol etbord, le maintien de separation embarquee, l’interaction homme-machine, les facteurs humains.Il comprend135 agents permanents. Il est implante sur deux sites, Athis-Mons et Toulouse. LaSDER mene des etudes, recherches et experimentations dans les domaines suivants :

– La securite du trafic aerien– La modelisation des flux et performance du systeme– Les futurs concepts de gestion du trafic aerien– Moyens et methodes de controle aeroports et approches– Moyens et methodes de controle en-route– Outils et moyens d’etudes

L’ensemble de ces etudes est supporte par des moyens informatiques importants inter connectesentre eux. Les experimentations sont menees a l’aide de puissants systemes de simulation.

Page 22: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 23: Methodes statistiques appliqu´ ees´ a la` complexite du

I NTRODUCTION

Ni les menaces terroristes ni les hausses recurrentes du prix du baril de petrole ni l’allonge-ment demesure des files d’attente aux comptoirs d’embarquement ne semblent en mesure de

mettre un terme a la croissance prononcee du trafic aerienconstatee sur les dernieres decennies.C’est en tous cas le sens des recentes previsions objectives d’Airbus, de Boeing et d’EUROCON-TROL1 .

Mais l’optimisme le plus debride ne peut faire oublier le paradigme selon lequel, a ni-veau de securite constant, les risques d’abordage4 entre aeronefs quadruplent lorsque le traficdouble. . . Pour l’organisme de controle du trafic aerien, accompagner la croissance c’est doncnon-seulement etre en mesure de fournir la capacite necessaire a l’ecoulement des flux, maisegalement ameliorer significativement le niveau de securite.

Pour l’heure, et pour sans doute bien des annees encore, c’est au controleur aerien querevient la responsabilite de veiller a l’execution sure, rapide et efficace des vols. Sa percep-tion des risques de collision et son aptitude a les resoudre meme lorsqu’un nombre impor-tant d’aeronefs est implique le rendent indispensable ausysteme. Si l’on ne peut remplacer lecontroleur aerien, ameliorer le niveau de securite passe par le developpement d’outils perfor-mants d’aide au controle et par une structuration de l’espace aerien qui minimise, pour un vo-lume de trafic donne, la charge de travail du controleur.

De fait, comprendre et modeliser la charge de travail du controleur est loin d’etre evident. Lenombre d’avions supervises, s’il donne a priori une bonne indication de la complexite du trafic,ne suffit pas a lui seul a caracteriser la complexite du trafic. On peut pour s’en persuader compa-rer le cas “simple” den avions evoluant suivant des trajectoires paralleles avec le cas “complexe”den avions en convergence frontale (voir figure 1).

Ce constat simple a motive de nombreuses etudes visant a modeliser la charge de travail des

1Organisation europeenne pour la securite de la navigation aerienne4En droit aerien, l’abordage ne s’entend que de la collisionentre deux aeronefs en evolution au moment du heurt

ou de l’accident

Page 24: Methodes statistiques appliqu´ ees´ a la` complexite du

2 INTRODUCTION

FIG. 1 – Complexite du trafic aerien

controleurs confrontes a diverses configurations de trafic, et ce autant a la NASA5 qu’a EURO-CONTROL1 et bien sur a la SDER6. Le projet S2D2 (“Sector Status and Dynamic Density”)s’inscrit dans ce cadre. Elle est menee en collaboration par le LEEA (Kevin Guittet) et le LOG(David Gianazza). Bien qu’ils reconnaissent l’existence de biais importants (releve des equipes,formation des jeunes controleurs, incidents techniques.. . ), les auteurs postulent que les decisionsde “regrouper” plusieurs secteurs ou au contraire de “degrouper7” un secteur trop encombre sontstatistiquement significatives de la charge de travail du controleur (voir l’encadre page ci-contredecrivant les configurations des secteurs). L’objectif duprojet est donc de demontrer l’existenced’eventuelles correlations entre l’etat du regroupement et un certain nombre d’indicateurs ba-siques (nombre d’avions, flux entrants) ou plus evolue (voir Annexe A) censee decrire la com-plexite du trafic aerien au sein d’un secteur choisi. L’approche utilisee est originale et motiveepar le cout tres eleve des experiences en centre de controle (en comparaison, les donnees utiliseespour S2D2 sont archivees systematiquement et donc disponibles en quantite importante) et le ca-ractere purement objectif de la variable dependante. En contrepartie, les auteurs reconnaissentl’existence de biais importants (lies notamment a la rel`eve des equipes, a la formation des jeunescontroleurs, aux incidents techniques. . . ) qu’il conviendra de prendre en compte dans l’analysedes resultats.

Dans [21], l’outil utilise pour classifier les secteurs estun reseau de neurones. Le principalavantage de cette methode est sa capacite a identifier desrelations non-lineaires entre variables8.Les resultats obtenus dans cette etude sont mitiges. On observe en effet des taux de classificationscorrectes relativement importants, tant sur les donnees de test que sur celles de validation. . .Mais c’est deja le cas lorsque les seules variables explicatives utilisees sont le nombre d’avions

5National Aeronautics and Space Administration6Sous Direction desEtudes et de la Recherche appliquee7neologisme employe pour designer le fait de separer un secteur de controle en plusieurs secteurs plus petits8Actuellement, tous les appels d’offre publiee par EUROCONTROL reclament la prise en compte d’eventuelles

non-linearite. . .

Page 25: Methodes statistiques appliqu´ ees´ a la` complexite du

INTRODUCTION 3

FIG. 2 – Configuration des secteurs

presents dans le secteur et son volume. Les gains apportespar les autres variables9 sont tresfaibles, ce qui contraste avec des ameliorations plus importantes constatees dans la litterature.Plusieurs explications sont avancees pour expliquer ce r´esultat. En particulier :

– la dependance temporelle n’a pas ete prise en compte dans l’analyse,– la dynamique (resp. granularite de la variable dependante) est bien plus faible que celle

des variables explicatives,– les biais peuvent etre plus importants que prevus.

Le theme de mon stage s’inscrit donc dans la perspective destravaux futurs du projet S2D2.L’utilisation d’autres methodes statistiques doit permettre de degager des pistes de travail et decomprendre ce qu’il est raisonnable d’envisager. En particulier, est-il raisonnable de se lancerdans des modeles de choix discrets dynamiques si les biais sont trop importants et la dynamiquedes variables explicatives mal adaptee.

Dans un premier temps, on decrira les donnees que l’on a manipulees pour realiser ce tra-vail. Dans un deuxieme temps, on fera appel a l’analyse descriptive des donnees pour essayerde mettre en evidence une structure particuliere de secteur. On se servira, pour cela, de deux ou-tils : l’Analyse en Composantes Principales et la methode de clustering. Pour finir, en troisiemepartie, on utilisera l’analyse predictive des donnees, avec la regression logistique, pour tenter deconstruire un modele pouvant prevoir l’etat futur du secteur aerien.

9Il s’agit, dans l’etude [21], des composantes principaleset non d’indicateurs de complexite “individuels”.

Page 26: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 27: Methodes statistiques appliqu´ ees´ a la` complexite du

CHAPITRE I

L ES DONNEES

I.1 Presentation

Le terme decomplexite du trafic aerien fait appel a des concepts et des realites tres divers.Selon laPerformance Review Unit1 (PRU), la complexite est abordee au moyen d’indica-

teurs agreges sur une journee complete. Mais d’apres d’autres etudes, elle est envisagee en re-lation avec la charge de travail du controleur a l’instantt. Dans ce cas, elle est estimee par descontroleurs aeriens lors de simulations ou sur du trafic r´eel, generalement rejoue. Cependant,l’etude menee ici utilise une autre mesure de la charge de travail plus objective et simple a obte-nir : l’exploitation des donnees archivees des affectations de secteurs aux positions de controle.La notion de complexite est alors comprise entre les indicateurs generaux de la PRU et la chargede travail instantanee. Le but est alors de rechercher une relation entre les indicateurs de com-plexite et le domaine d’utilisation des secteurs de contrˆole, avec une granularite temporelle del’ordre de la minute.

Les donnees ont ete obtenues a partir de145 secteurs. Le rangement des secteurs n’a pas denom particulier. Elles ont ete recoltees sur la periode du16 mai 2003 au06 juin 2003, exceptele 24 mai. Elles se presentent sous forme de table. En abscisse, on retrouve les differents indica-teurs et en ordonnee le nombre d’observations. Les indicateurs sont calcules a partir des donneesIMAGE et COURAGE. Les positions des avions (une par minute) sont obtenues en interpolantlineairement a partir des plots radar2 IMAGE (disponible toutes les trois minutes en moyennes).Par consequent, il existe un certain biais dans le calcul des indicateurs, du a la frequence d’archi-vage, trop faible, des plots radar IMAGE.

Les indicateurs etudies sont brievement listes dans latable I.1, page suivante. On leur a ajoute,comme variable explicative, le volume de chaque secteur considere.

Afin d’etre plus lisible, le details des indicateurs est repris in extensodans l’annexe A.

1Bureau d’Examen des Performances, il soutient Performance Review Commission qui surveille la performanced’Air Traffic Management en Europe et fait des recommandations pour les decisions d’EUROCONTROL

2Terme generique designant l’indication visuelle sur unecran de visualisa- tion radar sous forme non symboliqueou symbolique, de la position d’un aeronef obtenue par radar primaire ou secondaire.

Page 28: Methodes statistiques appliqu´ ees´ a la` complexite du

6 I. LES DONNEES

Indicateurs Minimum Maximum

vol 19504 4040701.000000uceso 1 17.000000ucesa 0 14.000000ratio ucesauceso 0 5.000000nb 0 110.000000nb2 0 12100.000000var v 0 22499.935105nb des 0 24.000000nb mon 0 32.000000sqrt var sur moy 0 1.186011flux5 0 36.000000flux15 0 71.000000flux30 0 128.000000flux60 0 239.000000vprox 1 0 15.984630vprox 2 0 8.932527hprox 1 0 106.397911densp 0 389.385919desang 0 18042.052981desvit 0 10521.724007div p 0 16779.207045conv p 0 17808.653153sensid 0 25313.559569sensic 0 38314.586981insend 0 18093.102796insenc 0 9837.915949inter vert 0 2389.166667chgt niv 0 5882.812500inter hori 0 93.781818creedbon 0 0.008833creedpb 0 0.013190

TAB. I.1 – Liste des indicateurs implementes dans S2D2

I.2 Manipulation

Le logiciel R est l’adaptation gratuite de S qui est une ref´erence en terme de traitement statis-tique des donnees. Il est par exemple disponible sur le sitehttp ://cran.ch.r-ptoject.org. R est unlangage avant tout procedural qui permet toutes les structures de controle d’un langage commele C. Il fournit une large variete d’outils statistiques (modele lineaire et non lineaire, analyse desseries temporelles, classification, . . . ) et des techniques de realisation de graphiques. La plupart

Page 29: Methodes statistiques appliqu´ ees´ a la` complexite du

I. LES DONNEES 7

des utilisateurs pensent que R est seulement un logiciel de statistiques. Or, il est preferable de leconsiderer comme un environnement dans lequel sont implementees des techniques statistiques.R peut etre etendu (facilement) via despackages. Dans cette etude, on a utilise les suivants :

– CLUSTER : package de reference pour la classification de donnees. On y trouve desmethodes hierarchiques et de partitionnement. La fonction clusplotpermet de representergraphiquement les clusters obtenus.

– MASS : nom de la bibliotheque de Venables et Ripley correspondant au contenu de leurlivre Modern Applied Statistic with S. Les methodes traitees concernent les sujets commeles regressions de type lineaire et non-lineaire, les s´eries temporelles, etc.

I.3 Mise en place

Pour l’exploitation des donnees, on a cree une liste qui contient le nom de tous les secteurs(nommee secteur) et une autre qui contient ceux des differentes dates (nommee date). Le typede chemin pour le chargement des observations sur un secteura une date fixee est de la forme“∼gianazza/ML/S2D2/INDICSKEVIN NF/Indics 20030606/S2D220030606AE AA.ind”. Ils’agit ici de la table du secteur AEAA au cours de la journee du06 juin 2003. On souhaite obte-nir une table qui contient toutes les observations sur un secteur durant toute la periode etudiee. Ladifficulte est alors de construire un algorithme qui reconstitue le chemin pour un secteur a toutesles dates. Mais il se trouve qu’a certaines dates l’observation du secteur n’est pas disponible. Ilfaudra alors en plus verifier sa presence pour charger la table correspondante. L’algorithme misen place fixe donc un secteur choisi et teste le chemin a chaque date. Pour finir, on possede uneliste nommee “Voir” qui comporte les donnees observees de 145 secteurs differents qui com-portent les trois etats. Le detail de la procedure est misen annexe (B.1).

A chaque analyse de donnees, on a tout d’abord normalise grace a la commandescale. Eneffet, les indicateurs de complexite possedent des unit´es de mesure differentes. Le recours a lareduction des variables permet d’attenuer l’effet d’echelle. Donc, afin d’equilibrer les influences apriori des champs, on a applique a chacune des variables numeriques une transformation lineairequi amenera sa moyenne a “0” et sa variance a “1”. Les nouvelles variables ainsi creees sont dites“standardisees” (ou, improprement, “normalisees”), ouegalement centrees-reduites.

Page 30: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 31: Methodes statistiques appliqu´ ees´ a la` complexite du

CHAPITRE II

ANALYSE DESCRIPTIVE DES DONN EES

L’analyse descriptive a pour objet de decrire un comportement, c’est a dire d’identifier lesprincipaux criteres discriminants de ce comportement. Les methodes descriptives ont pour

but de donner une idee precise de la distribution des variables, de representer spatialement desrelations, de decrire des hierarchies, des regroupements, de faire apparaıtre des structures sanspour autant expliquer ou predire.

Ce chapitre est consacre a la charge de travail instantan´ee du controleur aerien au momentt. A cause de l’importance du trafic, des conditions meteo, des plans de vol et trajectoires desavions celui-ci manie de nombreuses informations en meme temps. Il doit donc toujours etrepret a prendre des decisions tres rapidement. Dans cette etude, on considere un ensemble dedonnees de grande taille et on souhaite mettre en oeuvre plusieurs techniques pour avoir une vueplus complete du trafic aerien. On utilise deux outils complementaires. Le premier, l’Analyseen Composantes Principales, aura pour but d’elaborer une combinaison de ces indicateurs pourreduire la dimension de l’espace les representant. Le second, la methode declusteringaura pourobjet de chercher l’existence de patterns de trafic qui expliqueraient le statut du secteur aerien.

Les indicateurs :date, heure, vol, nb, nb2, uceso, ucesa, ratio ucesauceso, flux5, flux15,flux30, flux60, groupe, arme et degroupe sont retires de l’analyse. En effet,ucesoet ucesasontdes variables statiques (liees a un secteur) qui ne decrivent pas la charge de travail instantanee.Par exemple,ucesorepresente le nombre de positions de controle disponibles sur le secteur. Lesflux quand a eux ne renseignent que sur le trafic futur : ils permettent d’expliquer les statuts maispas la charge de travail instantanee.

II.1 Analyse Factorielle : l’ACP

II.1.1 Introduction a l’ACP

L’etude d’une population statistique de taillen passe le plus souvent par le recueil d’unnombre elevep de donnees quantitatives par element observe. L’analyse de ces donnees doit

Page 32: Methodes statistiques appliqu´ ees´ a la` complexite du

10 II. A NALYSE DESCRIPTIVE DES DONNEES

tenir compte de leur caractere multidimensionnel et rev´eler les liaisons existant entre leurs com-posantes.

L’analyse en composantes principales (ACP), introduite en1901 par K. Pearson et developpeepar H. Hotelling en1933, est une methode tres puissante pour explorer la structure de tellesdonnees. Chaque donnee etant representee dans un espace ap dimensions, l’ensemble des donneesforme un “nuage den points” dansRp.

C’est une methode de statistique descriptive qui permet decomprendre et de visualiser l’inter-action de phenomenes qui a priori sont isoles. Le principe de l’ACP est d’obtenir une representationapprochee du nuage dans un sous-espace de dimension faiblek par projection sur des axes bienchoisis. Les composantes principales sont lesn vecteurs ayant pour coordonnees celles des pro-jections orthogonales desn elements du nuage sur lesk axes principaux.

L’ACP construit ainsi de nouvelles variables, artificielles, et des representations graphiquespermettant de visualiser les relations entre variables, ainsi que l’existence eventuelle de groupesd’observations et de groupes de variables.

L’ACP est une methode factorielle car la reduction du nombre des caracteres ne se fait paspar une simple selection de certains d’entre eux, mais par la construction de nouveaux caracteressynthetiques obtenus en combinant les caracteres initiaux au moyen des “facteurs”. C’est unemethode lineaire car il s’agit de combinaisons lineaires.

Pour plus de details sur l’ACP, voir [2].

II.1.2 But de l’ACP pour S2D2

Lors d’une journee de trafic, “n” explique beaucoup, mais pas completement la charge detravail du controleur et donc la decision de grouper ou degrouper un secteur. Par consequent,d’autres indicateurs ont ete definis dans la litterature. Ils sont souvent construits de facon a etre“statistiquement” croissant en “n”. Il apparaıt alors un probleme marque de colinearite, observepar exemple dans [13] et [21]. On a donc interet a utiliserl’ACP pour decorreler les indicateurs.Cette methode factorielle a deja ete realisee dans le projet S2D2 et a permis de retrouver uneffet de taille directement lie au nombre d’avions dans le secteur. Dans cette etude, on est plusinteresse par la structure du trafic dans le secteur a nombre d’avions fixe. Il est donc interessantde voir quels facteurs ressortent lorsqu’on fait une ACP pour “n” fixe .

II.1.3 Analyse d’un secteur

On effectue une ACP des donnees recueillies pour decorreler les indicateurs et travailler surun nombre restreint de variables. L’objectif est de reduire la dimensionalite pour creer un petitnombre de variables qui decrivent les donnees presque aussi bien que le font les indicateurs decomplexite “bruts”. Il est vrai que la manipulation de20 indicateurs bruts, dans le but de tirer de

Page 33: Methodes statistiques appliqu´ ees´ a la` complexite du

II. A NALYSE DESCRIPTIVE DES DONNEES 11

l’information, est lourde et difficile. Pour obtenir une meilleure representation des donnees, onprend les premieres composantes principales qui sont une combinaison lineaire des variables ini-tiales. Le role de chaque composante principale peut alorsetre determine par les variables d’ori-gine qui contribuent le plus a sa construction, soit les plus correlees. Un exemple est presentepour le secteur AEAA a 8 avions. L’idee est donc de construire de nouveaux facteursqui pour-raient decrire la situation du secteur lorsque le controleur fait face a la gestion d’un nombre fixed’aeronefs.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Numero de la valeur propre

% d

e la

so

mm

e d

es v

ale

urs p

ro

pre

s

05

10

15

20

25

FIG. II.1 – Eboulis des valeurs propres pour l’etude d’un secteur

La figure II.1, de la presente page, montre qu’une des valeurs propres capte a elle seule plusde25% de la variance des donnees initiales. On a fait le choix, un peu arbitraire, de selectionnerseulement6 axes principaux car l’inertie de chacun d’eux est superieure a celle des variablesoriginales. L’ACP permet alors de degager6 composantes principales, de variance superieure a1. En fait, on pourrait tout aussi bien garder tous les indicateurs comme composantes principalescar les ecarts de variances ne sont pas importants. On interprete les trois premieres composantesen faisant l’etude des correlations entre les composantes principales et les variables initiales dutableau de donnees :

– C1 : Cette composante est tres correlee avprox 1, qui est une mesure de proximite verti-cale, etdensp. Cet axe peut etre lie a la notion de densite.

– C2 :var v et sqrt var sur moysont tres decorrelees avec cet axe. En “inversant” l’image,on peut penser que cet axe est lie a la vitesse des avions. Enfait, cet axe renseigne sur-tout sur le “traffic mix”, c’est a dire sur les differences de performances entre avions. Cettequantite mesure l’ecart type des vitesses et constitue donc un bon indicateur des differencesde performances entre les avions traversant le centre et donc de l’heterogeneite du trafic.

– C3 :Conv p et insenc sont tres correlees a cet axe.Insenc est croissant en “nombre deconflits” et en “insensibilite”. L’insensibilite traduit la difficulte de resolution des conflits.Convp est aussi correle avec le nombre de conflits. Donc cet axe est tres lie aux nombre

Page 34: Methodes statistiques appliqu´ ees´ a la` complexite du

12 II. A NALYSE DESCRIPTIVE DES DONNEES

de conflits potentiels.

Les trois premieres composantes principales montrent quela structure du trafic sur un sec-teur depend de la densite, de la performance des avions et du nombre de conflits potentiels. Ceresultat n’est pas surprenant car il montre evidemment les explications possibles de modificationdu statut. Un secteur presentant un trafic inhomogene d’avions proches et convergents generera,a nombre d’avions fixe, une charge de travail plus importante pour le controleur, et sera doncplus susceptible d’etre degroupe.

L’etude des trois derniers axes revele la presence de correlation avec certaines variables despremiers axes. L’ACP ne permet pas, dans ces conditions, de degager distinctement une bonneexplication pour chacune des trois dernieres composantes.

Par consequent, l’ACP sur ce secteur ne permet pas de visualiser l’existence eventuelle degroupes d’indicateurs qui pourraient expliquer une structure particuliere pour un nombre fixede8 avions. Le meme travail a ete realise pour le nombre de4. Le resultat est identique, on nereussit pas a degager de nouveaux facteurs independants.

II.1.4 Analyse sur une reunion de trois secteurs

On realise le meme schema d’etude que precedemment sur l’extrait aleatoire de trois sec-teurs. On a pour objectif de tester la robustesse de nos resultats sur les donnees qui exhibent, apriori, plus de variabilite.

On retrouve a peu pres la meme figure que dans II.1. La premiere valeur propre capte environ30% de la variance des donnees initiales.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Numero de la valeur propre

% d

e la

so

mm

e d

es v

ale

urs p

ro

pre

s

05

10

15

20

25

FIG. II.2 – Eboulis des valeurs propres pour l’etude de trois secteurs

On identifie, dans la figure II.2, de la presente page, encore6 composantes principales devariance superieure a1. L’interpretation reste la meme que precedemment.

Page 35: Methodes statistiques appliqu´ ees´ a la` complexite du

II. A NALYSE DESCRIPTIVE DES DONNEES 13

II.1.5 Resultat de l’ACP

L’Analyse en Composantes Principales sur un et trois secteurs a obtenu des resultats quiparaissent assez intuitifs : les caracteres identifies sont effectivement lies a la charge de travaildu controleur. En effet, l’ACP a montre que la complexitedu trafic aerien augmente nettementavec la densite. Plus les aeronefs en vol sont proches plusles risques de conflits sont importants.La charge de travail instantanee du controleur est evidemment deja determinee par cette notion.L’ACP a ete utilisee dans le but de reduire la dimension de l’espace representant les indicateurs.Mais, on souhaiterait maintenant pouvoir etre capable d’identifier des structures dans les donnees(ici des patterns de trafic) grace a la construction de clusters.

II.2 M ethode deClustering

Cette methode est un ensemble de techniques statistiques qui ont le but de detecter desgroupes d’objets avec deux caracteristiques complementaires :

– l’homogeneite interne la plus elevee (a l’interieur de chaque classe)– l’heterogeneite externe la plus elevee (parmi lesdifferentes classes)

Dans le langage de la statistique, ces caracteristiques correspondent respectivement a la va-riance interne (within cluster variance) et a celle externe (between cluster variance). En general,il y a deux genres de classification :

– methodes hierarchiques, dont les algorithmes reconstruisent la hierarchie entiere des objetssous l’analyse (le soi-disant “arbre”), soit dans un ordre ascendant (CAH) soit dans unordre descendant (CDH)

– methodes de division, ou l’utilisateur definit precedemment les nombres de classe danslesquels l’ensemble des objets doit etre partitionne

Dans cette section, on appliquera ces methodes de classification, par partitionnement ethierarchique, dans le but de regrouper les observations sur la complexite instantanee en classesles plus homogenes possibles afin d’identifier des “patterns” de trafic (cf II.2.2).

II.2.1 Introduction au Clustering

Le terme decluster analysis1, utilise pour la premiere fois par Tryon en1939, comprenddivers algorithmes et methodes pour grouper des objets de nature similaire dans leur categorierespective. Les chercheurs font face, de maniere generale, dans beaucoup de domaines de ques-tionnement, a la difficulte d’organiser des structures significatives pour l’ensemble des donneesobservees. En d’autres termes, l’analyse en cluster est uninstrument d’analyse exploratoire dedonnees qui a pour but de classifier differents objets en groupe de maniere a ce que le degred’association entre les objets soit maximal s’ils appartiennent au meme groupe et minimal sinon.Etant donne cela, l’analyse en cluster peut etre utilisee afin de decouvrir des structures dans les

1Voir [8] pour plus d’informations

Page 36: Methodes statistiques appliqu´ ees´ a la` complexite du

14 II. A NALYSE DESCRIPTIVE DES DONNEES

donnees sans fournir une interpretation ou une explication. C’est a dire qu’elle montre simple-ment des structures dans les donnees sans expliquer leur existence.

En fait, l’analyse en cluster n’est pas plus un test typiquement statistique qu’une “collection”de differents algorithmes qui “mettent des objets dans desclusters selon des regles definies desimilarite”. Le point est que, a la difference de beaucoup d’autres procedures statistiques, lesmethodes d’analyse en cluster sont pour la plupart utilis´ees lorsqu’il n’y a pas d’hypotheses apriori, mais lorsqu’on est encore dans la phase exploratoire de ses recherches.

II.2.2 But du Clusteringpour S2D2

Dans le cadre de S2D2, la question du bruit dans les donnees est importante, puisqu’elleconditionne les traitements statistiques a venir. Si la qualite des donnees est trop faible, il esten effet inutile d’esperer gagner significativement en pr´ecision meme en utilisant des techniquesstatistiques tres elaborees.

Pour evaluer la qualite des donnees et leur adaptation auprobleme des degroupements de sec-teurs, on peut envisager une analyse en clusters du trafic. L’idee est la suivante : dans la journee,certaines situations peuvent se reproduire et definir des “patterns2” (ou motifs) de trafic suscep-tibles d’expliquer le statut du secteur aussi bien qu’une description plus fine du trafic donneepar les indicateurs de complexite. Un pattern pourrait etre identifie par une methode de clusters :de nombreuses observations “similaires” et donc identifiees comme un groupe decriraient unesituation de trafic. Pour tester le bruit des donnees, on pourrait donc remplacer l’observation “al’instant t” par les coordonnees du centre du clusters auquel elle appartiendrait. La comparai-son des performances du modele ainsi obtenu avec celles du modele “instantane” renseigneraitsur l’adaptation des donnees au probleme considere : dans le cas ou les performances seraientequivalentes, on pourrait en deduire que les donnees sont trop fines ou trop bruitees pour l’appli-cation envisagee ici.

Un exemple pour comprendre ce qui pourrait constituer un pattern de trafic :

Aux abords d’un hub3, le trafic est a priori convergent (resp. divergent) au debut (resp. a lafin) de la periode de pointe, et ce bien que le nombre d’aeronefs en evolution soit similaire dansles deux cas. On pourrait alors imaginer avoir des patterns “secteur lors de l’arrivee sur le hub”et “secteur lors du depart du hub”.

II.2.3 Classification Par Partitionnement (k-Means Clustering)

Supposons que l’on possede deja des hypotheses concernant le nombre de clusters . On vou-drait demander a l’ordinateur de former3 clusters qu’ils soient aussi distincts que possible. C’est

2Le principal interet des patterns est de permettre la manipulation d’artefacts plus elabores que les objets et lesclasses. Ils accroissent la force d’expression des langages de modelisation.

3plate-forme de correspondance

Page 37: Methodes statistiques appliqu´ ees´ a la` complexite du

II. A NALYSE DESCRIPTIVE DES DONNEES 15

ce type de question qui peut etre adresse a l’algorithme k-means. En general, la methode k-meansproduira exactementk clusters differents avec la plus grande distinction possible. Il devrait etrementionne que le meilleur nombre de clustersk menant a la plus grande separation (distance)n’est pas connu a priori et doit etre calcule a partir des donnees.

L’algorithme classique k-means a ete popularise et ameliore par Hartigan en1975 (voir Har-tigan et Wong,1978). Cette methode a pour objectif de produire une partition en un nombre kfixe de classes. Il est question de regroupern individus enk classes.

Ce qui nous amene a nous interesser a la selection du “bon” nombre de clusters. Il existe alorsde nombreux criteres pour resoudre ce probleme. Il s’agit des criteres de Calinski et Harabasz(CH), de Krzanowski et Lai (DIFF), de Hartigan (H), Kaufman et Rousseeuw (SIL) et enfin deSugar et James (JUMP). Ces criteres peuvent etre calcules a l’aide de la routinekmeans. Cettecommande choisit au hasardk points, les centres, et repartit l’ensemble des donnees en k classes.Elle associe un point dans la meme classe que le centre dont il est le plus proche. Enfin, elleremplace chaque centre par le centre de gravite de la classe. Des algorithmes ont ete developpes(voir [3]) pour generer un “bon” ensemble de points initiaux dans le but de reduire la duree descalculs. On expose deux representations de certains de cescriteres. Le detail de ces criteres estexpose plus precisement dans la note [1].

Analyse d’un secteur

Kaufman et Rousseeuw (1990) definissent l’indicateurs(i) (denomme “silhouette”) et as-socie a l’individui. On a

s(i) =b(i) − a(i)

max{a(i), b(i)} (II.1)

ou a(i) (resp.b(i)) represente la distance (ou dissimilarite) moyenne entre les pointsi et tousles autres points du cluster auquel il appartient (resp. tous les points du cluster dont il est le plusproche au sens deb(i)). Pluss(i) est eleve, meilleure est la classification. Le critere est representepar le graphe de SIL.

Le critere de Hartigan (1975) s’ecrit :

H(k) = (n − k − 1)

(

W (k)

W (k + 1)− 1

)

(II.2)

ouW (k) represente les inerties “intra” clusters

W (k) =1

n

k∑

i=1

ni∑

j=1

(Xji − Xi)

2 (II.3)

H(k) est une F-statistique partielle permettant de tester s’il est interessant d’ajouter un clusterauxk deja existants. On doit choisir le premierk tel quek ≤ 10.

Page 38: Methodes statistiques appliqu´ ees´ a la` complexite du

16 II. A NALYSE DESCRIPTIVE DES DONNEES

0 5 10 15 20 25 300.

300.

350.

400.

450.

50

Indicateur SIL(k)

Nombre de clusters

SIL

Indicateur H(k)

Nombre de clusters

H

0 5 10 15 20 25 30

24

68

1012

14

FIG. II.3 – Criteres de selection du nombre de clusters pour l’analyse d’un secteur

Ces deux criteres ont des justifications theoriques diff´erentes et repondent a des objectifsdifferents. On constate, sur la figure II.3 de la presente page, que les criteres se comportent demanieres tres differentes. Il n’est donc pas a priori surprenant que ces criteres puissent suggererdes nombres differents de clusters. La courbe de SIL est croissante, ce qui pose probleme pour samaximisation. En effet, SIL montre que l’on peut choisir de tracer un cluster ou au contraire uneinfinite. Le critere H montre qu’il faut choisir le nombre de 2 clusters. Cependant, le tracer dedeux clusters ne fait rien apparaıtre. Les nuages de pointsne sont pas assez dissocies (voir annexeC.1). Par ailleurs, on observe une certaine irregularitedans la valeur des criteres. Le problemeest lie a l’optimisation dekmeans, qui est locale. Cette analyse montre qu’il existerait alors soitun seul type de trafic soit une infinite, ou chaque observation constituerait un pattern de trafic.Par consequent, on peut maintenant faire l’etude de troissecteurs reunis pour essayer de mettrepeut etre en evidence trois types de trafic aerien si le nombre de1 cluster etait le bon.

Analyse sur une reunion de trois secteur

0 5 10 15 20 25 30

0.20

0.25

0.30

Indicateur SIL(k)

Nombre de clusters

SIL

Indicateur H(k)

Nombre de clusters

H

0 5 10 15 20 25 30

010

020

030

040

0

FIG. II.4 – Criteres de selection du nombre de clusters pour l’etude de trois secteurs

La figure II.4 de la presente page represente les criteresde Kaufman et Rousseeuw (SIL)et de Hartigan (H). On s’apercoit que SIL a une courbe decroissante par paliers. On peut ainsi

Page 39: Methodes statistiques appliqu´ ees´ a la` complexite du

II. A NALYSE DESCRIPTIVE DES DONNEES 17

remarquer que2, 6 et 10 sont des maxima locaux. Cependant, ce resultat n’est pas pertinent. Eneffet, si on avait trouve3 ou une infinite de clusters a tracer, on aurait pu conclure que chaquesecteur pouvait representer a lui seul un type de trafic particulier. Ou encore que toutes les ob-servations en constituaient une representation. Mais l’interpretation de SIL conduit au fait qu’onne peut rien affirmer au sujet de la presence d’un pattern de trafic aerien. De meme, on ne peutfaire aucune conclusion avec la representation de la courbe de H. Par consequent, les criterespresentes n’indiquent pas bien le nombre de clusters a tracer.

Pour conclure, la classification par partitionnement n’a pas permis d’obtenir une vue plusglobale du trafic aerien. L’inexistence de pattern significatif montre que les indicateurs de com-plexite peuvent etre trop fins.

II.2.4 Classification Ascendante Hierarchique (Tree Clustering)

Peut-etre la technique de clusterisation la plus populaire pour des individus decrits par desvariables numeriques. Elle considere initialement chaque individu comme une classe a lui toutseul. S’il y aN individus, elle considere donc initialement une partition triviale de la base enNclasses. Puis elle regroupe les deux individus “les plus proches” en une seule classe, pour obtenirune partition de la base enN − 1 classes. Poursuivant sur sa lancee, elle fusionne a chaque etapesuivante les deux “classes les plus proches”. Si l’on poursuit le processus jusqu’a son terme, ellearrive en fin de procedure a une partition triviale en une seule classe, la base tout entiere. Unedifficulte evidente d’une telle approche est de trouver une definition raisonnable de la “distanceentre deux classes”.

Dans cette etude, on a realise une classification hierarchique avec la methode “complete” : quisignifie que les distances entre les clusters sont determinees par la plus grande distance entre deuxobjets quelconques dans les differents clusters (i.e., par “furthest neighbors”). Cette methodefonctionne souvent assez bien dans les cas ou les objets forment naturellement des masses com-pactes distinctes. Elle permet de repartir les elementsd’un ensemble de groupes, c’est a dire departitionner cet ensemble. Cependant, chaque groupe doit ˆetre le plus homogene possible et lesgroupes doivent etre les plus differents possibles entreeux. On recherche alors une hierarchiedes parties qui constitue un arbre binaire appele dendrogramme.

Arbre hi erarchique

Au bas de la figure II.5 page suivante, chaque objet definit sapropre classe. Ensuite, on reliede plus en plus d’objets ensemble et on agrege des clusters de plus en plus grands d’elementde plus en plus differents. Finalement a la derniere etape, tous les objets sont joints. Dans cettefigure, l’axe des ordonnees montre les distances entre les liens. Donc pour chaque noeud, ou unnouveau cluster est forme, on peut comprendre grace au critere de distance que chaque elementa ete relie pour faire un seul cluster. Lorsque les donnees contiennent une “structure” claire enterme de clusters d’objets similaires, alors la structure sera souvent refletee dans l’arbre commedes branches distinctes.

Page 40: Methodes statistiques appliqu´ ees´ a la` complexite du

18

II.A

NA

LYS

ED

ES

CR

IPT

IVE

DE

SD

ON

NEE

S

FIG

.II.5

–A

rbre

hierarch

iqu

e

Analyse

d’unsecteur

L’arbre

de

lafig

ure

II.6(a)

de

lap

age

18

mo

ntre

lap

resence

de

trois

gro

up

esd

esequ

ilibres.

Dan

sle

gro

up

ed

ed

roite,ils’ag

itcertainem

entd

e“o

utliers”

vuso

nasp

ecttresred

uit.O

np

ou

r-rait

imag

iner

qu

ece

gro

up

e,d

ecard

inal

heu

reusem

ent

faibl

e,co

rrespo

nd

ad

essitu

ation

sd

etrafic

ou

des

pertes

de

separatio

nseraien

tsu

rvenu

es,p

rovo

cant

lad

ivergen

ced

ecertain

sin

di-

cateurs

de

com

plexite.

L’app

arence

du

den

dro

gram

me

ne

per

met

pas

vraimen

td

’iden

tifieru

ne

bo

nn

eclassificatio

nd

esd

on

nees.

Ce

qu

iparaıt

no

rmald

’ap

resles

resultats

de

laclassificatio

np

arp

artition

nem

ent.18810

1891218910

47784289

1621134211

51485168

18991909

1851018651875

234234174455

22673009

34043307

343951785188

37283707

371112287

332845113

3451134711

4521048082122

530853113

446545484558

187121851218612

299300

47981905

1901034443454

491134998

513851943409

51745184

0 2 4 6 8 10 12

Clu

ster Den

dro

gram

hclust (*, "complete")

dist(res.8)

Height

(a)P

ou

ru

nsecteu

r

109328935455165324950775018799516773160451107671 421316822136681566116621970214 336613469191351663856220912511000215821111206198419941126535781391514241175111030941 7384499961113563143706149315466213101017444676215834356813191965351655413176151222510235112311267112978529373173863162951631915531055212376313773137431611166305160410 556103485163751407916365141891381713824163551913117041268921418514822217254181474747207139481 389483471550165871648321482178661838122443166501410571356418181410471127597531740136541751631140184141015651536518 6591366013613138539100915101019 4102326945501055114 1925567159621106205141591383191935209524113283428443774158815636528131213110064638158118101313496310178412802164636130813309137351756015583145488134491411131412121104427681864791087126678648965499055906565113195565098692123551259122601275712758123771710422871314741254818549188702126562666762480357295262645210161812415110863118109811932112192316808580956345635510477381232421124399221847319474198536189771388318967189871793417471775451 1594593177741645911755517565199119996999894608156815890448415485153881759120105013581110954633316343168861689611031145971651794841628651518951995101560616607164088147891464914659166686611746611042341656514871586515863158641564511869487041110795103 76918996108461215911601454442241530178194925171805215379747984 352110993940217192419446221109999403151047510485104951050510519 249488992227795134123342211021110986777517745177551 8875653145851388715885158861579643078264622384601212110218310205661214544142011037817379171075510735107456884152617203571215440113041618915803128041280512781151931595744901103024436413212159987315132017801976315186568911690114564173231357411118479416140410482110201102618987314177011668131628124303146116112048031830741308418625188912192185231252412190161912019015191194151446113146211110210459312458719946110725624171071969616 500414669187894741610434104447102198049817807417994512158127110019813619987146091411091371414154571669732185691153431377746984131811922515611831123968314324170044334195618919514435198248219110787137319374196191891391804187641576515 546816354636456216 45416454126112173771428138635142513659219833984336419 5921999818993213107151211165121427136521983631778443117 8323183431139181009714242192351436715931603 1574776519959915118585185951157393531838514010102051 19217220221151516179634565118962189721363192919148611487113166148811109422333531779851 141023521234212322223321 42111031441855322617441313496179654 104282905198641466618711787215 64699631830413 563154259138219612126251119915225512166123941238412364123741 6051651212457614586153310636419931299412934410876497174991755915995169961617015313183822186049921510161626186271810675371811555261541644174105449211119228194616919121012139921424441245412043877219117190899134123716242192361610025438159318306133071321911055381546125421454512 87612505312381623916219615398154081243172541725517997810011610021454712916109171091810919107811678214151237801220112119881202101378416161319581334916219126366225132317880154521788119 9075892990298752187621562125631026116877128781290952704271788021298121046353417507429712991171032910429110132734102837551237617862987298829256637231121921332111100751006558014 815564331509464431745133521992317832516512051716750214191642016454814558134591652185604173317159447946710026165516110021119690971333912686108826356170330349784115397741154196469042231102241104344122011022111032511169157004122994181891411527178678868810091037819194815991831216821718224110091632219666189611107265727596642955142481051726466546664 891950244034727432031238312533199110189012964470015292110883125121450915900214931275131899213036159084911107381332231489616064191571413162301623218274192312059513965139961241615414164151599127017702410204911111813314336120331510196994150815522879910798108001044241946619620620214141716714345133461334813141229483110276169051230138675123117805177407110051190241104171002538651670980219810715173127551107048919490219121017791799111030616236216251762617183816231734413310231025168951475495841030510691966369131111741036133041051720397833154711494517762171066110671464219375942199441710424100454251610761074107596845769195483191236318715115418500511531810404104641651430514312221591810454299144224498476543631630446775195312951169521410771628447441904642459162421624316227162401624116215818964112153105410625510895188472444051510393902211098495716321911038111011111231039118641874328410845108551086533819386711088533919108174964497410834893410824108411965783417674851286121017197894001104011101211295612957122221059516 1655304314828110562183821369511093510945941211113011327306141038416418664410835307613071427951613917714110655201217012848178491785017804161004411227 1052197129812623186019179251649718724970613217185410875788498699879988918753891749419977318061622142576105771035721285514011440212185151861527519275112601726121101761263172641726517313203142016318161221622026251228911015619486116911825719496195061223912299116811632616336140814262193842166610326199797130716221172231347571222155975137921406819788979888113515101242339013631101630136001096713638152441324513242152431385861284513811113891325617495191831718441000451016648211108564721182171951797321687611084216457125361643115264823714812353831639118651757994541558444123179816799162511018071660051808165891259515184212063176571956139571385918252613647138821638117361873518994169810399103102317191268561762316866110632146441684319931682281607219662191451562134781974031664884012637492195681440231405819874157461453415878110177051256918570182484692168421466113483158112991131067310683106521467110193174571242171456126591769118455127595128518163416442474578934519101016 17921231029313885615341947121761054031951014551625616210216278105511147912211428667138451385517296146071461111124111258121020211209222159710177151781550951747920191882198841715721376115282117314 23891623616251311810112010197771519815208110127110136116321315193161920414205142269122791993853712538121003127451074610121104224918011618651251515171025031829318821014831104841106222162961205122031220412195125646156561610126111254331369154161341713416162581799211028110153993528135371930715379196124151337441183211742185191852511681416914931111167111010101389213081461817622414151616731640716951160016891101892616301763121632191855194761 699829521194122191311186303132281634106171356094252142621116171237312391592441925413062130521239319101791117206512045120551298132991369311694119081390913921169221476615467214702141718272512735130120393612271322813 943617101671116 70083072134713856611913119222233812089120991210131 6261398119522125231059214296110297110 11118129411029511011427839219710086120571641152281444331397110742123797135341171198703193266011460212108112151355120909419107136421417164181673851527211093473951536186902121111060151250614476167101052110797167210348716651736321363816131658312713616621015811620911010491890741908413611113764158120100151585997113316431911021459829616178151410554475617397143618889510484491238657129916300161853140031913219142156514541515641419017191212067197211859178601786281874433519104131463127157187517936716410871110387435949581610321086988708 3724110131155116 37531563181008154786192471458815073189016387415871386119379416574133951570143385139381 20719980872671547118211113871116421356718648610206112071971367814381656418682316177110021104561845718990217187140619864613301933123104318585613861103851107228197261600184617147719108071828172937171671399317525166421191121746171731386110173111087211041714354110416143931103602117122325191042211004615451848019580980717409716193140715734318053173331301225226185131852215273163631995184511697105106531066310510560162 991058610587105371054516253162541621026610276371623816217142181429220932074847494751476141914220142525105261024315244152451579441354518701361013492179131457911340511079713954110346142311 6491437911045421654515021754811503158264146391990943611057310979154341104351108721751310151410380183802191414 1317113241716169091191015291031261412713 856148521686313864138531485414453214026175597569596125941259512 4006139717450514519177221912165636163871349137326173061731101 62031598313681943231 5888976897783021891931723713836150310710911854118641377217119197821678616752180511928418041119381447215611528251390110283513782186771964462144521964219605186071277181005617012039511010111014402123813 6099744175011943011099114 65191764619183186361391034010386661393219396197331579123881108983138911036210197431510201865043157751925717874133751360719212121210121371 1217090317395171233038251121181381917521111717112018115661918219192185671605716261019321193612144110118132104627711344147617133414897120716111001210190315486154661547612483124931187411586122091521143986139414395147771077810779102411311011075211323113117415189811908124561621144021537871401175191052010355715831639021882313611522731713174844144341444413917741111742815821885518856188576121718849518505136411089931912214110727451932819337162817916613896120281972110598108091414518160612131011951575113750974897499371193721720220203187626121011155771254518357124331209714531104521109931884751122131121141467513826193761589106221263731838318933189531180167035158661 14499181741831392229386124661247619065124861712315671462310721101387617206136311071771488191831618816446512111113497121751218514771102957139091645141721558416371038043126011391311016211031814647158521197612046158421498123785137951758311041811496115061124171251516011013251168612012020218 119201487711131221091811101811092712913129222101261100201102201163511595116051 468511081811132711021812081620916120141105201106201 42511176110757311061224972110311011122719491768191506101032615041050710508108771786261878178791718111018218759319587198883961728122499155001528018740181088017311061971 481316635174918106357521101663167961572616806192018530315912182451897314625174818688214403171051727161021227115136761920874317287137603128813 36641634129141071120 63451393176495159114648517421965051 50916179110726166852143931 494156325163351 979211053157031918183921019783197931 82941104418907312987156911 391215071650816 7412164751590101054156019919185293110321109723176121683216904195771950175781270731410111103418987216872190011901151098058917686217401789631 6842146341951101713316226110726836161671 497155541042321944315079426119041749815 4091918011094331

0 5 10 15 20

Clu

ster Den

dro

gram

hclust (*, "complete")

dist(res.8)

Height

(b)

Po

ur

trois

secteurs

FIG

.II.6

–H

ierarchie

avecle

critere“co

mp

lete”

Analyse

surune

reunionde

troissecteurs

Led

end

rog

ramm

ed

ela

figu

reII.6

(b)

de

lap

age

de

lap

resente

pag

em

on

treau

ssilap

resence

de

ou

tliers.Ilsse

trou

ventd

ans

leg

rou

pe

com

pletem

enta

dro

ite.On

s’aperco

itqu

ela

bran

che

du

Page 41: Methodes statistiques appliqu´ ees´ a la` complexite du

II. A NALYSE DESCRIPTIVE DES DONNEES 19

centre rassemble une tres grande partie des donnees. Ce qui signifie que la partition de l’ensemblen’est pas bonne. Donc, on ne peut pas fixer un nombre correcte pour representer les clusters.

II.2.5 Resultat du Clustering

Les differentes classifications n’ont pas pu mettre a jourun nombre significatif de clusters atracer. Les indicateurs de complexite ne montrent pas l’existence de situation particuliere pouvantexpliquer le statut du secteur aerien. Par consequent, laqualite des donnees est trop faible ou ellessont mal adaptees pour mettre en evidence un pattern de trafic.

II.3 Conclusion

Les methodes utilisees lors de ce chapire ont permis de detecter le probleme de multico-linearite. Il peut s’agir d’un manque d’information et dans ce cas on doit essayer d’obtenirplus de donnees. Cependant, on s’est borne dans cette etude a attenuer l’effet des variables quiposent probleme. Mais les nouvelles variables construites a partir de l’ACP ne permettent pasau controleur aerien d’ameliorer la detection des conflits. Les methodes de clustering n’ont pasreussi a decrire un pattern de trafic. Les differentes etudes de donnees ont conduit au memeresultat. Il est difficile de degager une structure particuliere du secteur qui expliquerait son etat.Par consequent, la methode envisagee pour estimer l’importance du bruit dans les donnees nepeut etre implementee. C’est donc une fausse bonne idee.

Page 42: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 43: Methodes statistiques appliqu´ ees´ a la` complexite du

CHAPITRE III

ANALYSE PREDICTIVE DES DONN EES

L’analyse predictive a pour but de prevoir un comportementdonne. Elle a donc pour objet,non seulement d’identifier les criteres discriminants du comportement, mais aussi de trouver

la meilleure combinaison de ces criteres.

Apres une modelisation descriptive lors du chapitre precedent, on veut maintenant avoir uneapproche plutot predictive du trafic aerien. Le but est alors de realiser une “classification super-visee” ou, pour respecter la terminologie francaise traditionnelle, un “classement”. On chercheen effet a affecter chaque vecteur de valeurs des variablesexplicatives (composantes ou vo-lume) a une classe correspondant a un etat de regroupement (secteur “regroupe”, “arme”, ou“degroupe”). On sait qu’une approche de la classificationprobabiliste consiste a identifier lesfonctions de regression des indicatrices de classes. Cependant, la regression lineaire multiple estmal adaptee pour ce travail. Dans le projet S2D2, les auteurs ont utilise des reseaux de neuronessupervises qui sont des techniques de regression et de classification tres puissantes. Cette seriede techniques de modelisation se dispense de l’hypothesetres contraignante sur le couplagelineaire entre variables explicatives et variable a expliquer, ou de la frontiere entre classe. Etpourtant, malgre cette puissance de representation, lesreseaux de neurones ont un remarquablepouvoir de generalisation. On choisit d’utiliser, dans ce chapitre, un autre type de methode quisemble capable de degager d’eventuelles correlations entre l’etat de regroupement des secteursaeriens et un certain nombre d’indicateurs : la regression logistique. Une raison a l’utilisationde ce modele est que les reseaux de neurones, plus particulierement le perceptron multicouches(adopte dans S2D2), peuvent etre compris comme des generalisations de la regression logistiqueresultant d’une relaxation additionnelle des hypotheses sur la distributions des donnees. De plus,le modele logistique est une technique d’estimation des probabilites a posteriori tres puissant.Le modele genere devra donc classifier correctement lesexemples de l’echantillon mais surtoutavoir un bon pouvoir predictif pour classifier correctement de nouvelles descriptions du trafic.

La Modelisation de Donnees, c’est l’art d’extraire de l’information d’un ensemble de donneesobtenues par des mesures, et de condenser cette informationdans un modele exploitable1.

1Pour plus d’informations sur la modelisation de donnees :http ://www.aiaccess.net

Page 44: Methodes statistiques appliqu´ ees´ a la` complexite du

22 III. A NALYSE PREDICTIVE DES DONNEES

III.1 Introduction a la regression logistique

L’analyse de regression est une technique statistique permettant d’etablir un lien entre unevariable dependante et des variables explicatives, afin d’etudier les associations et de faire desprevisions. elle peut en principe n’etre utilisee qu’avec des variables metriques. Mais si on arecours au codage dummy, il est est egalement possible d’integrer a la regression des variablesindependantes categoricielles.

La regression lineaire simple ordinaire (MCO2) a pour but de modeliser la relation entre unevariable dependante quantitative et des variables explicatives. Cependant, lorsque la variable aexpliquer est qualitative, il est plus pertinent d’avoir recours a la regression logistique.

La regression logistique permet d’ajuster une surface de regression a des donnees quand lavariable dependante est dichotomique, lorsqu’elle ne peut prendre que deux valeurs (ou moda-lite). La variable sexe est un exemple de variable dichotomique, lesexe“male” ou “femelle”. Sion a plus de deux modalites, on parle de variable polytomique, e.g. unepression“haute”, “nor-male” ou “basse”. Cette technique est utilisee pour des etudes ayant pour but de verifier si desvariables independantes peuvent predire une variable d´ependante dichotomique.

III.1.1 Mod ele de regression logistique

Face a certains types de donnees, il existe des outils plusperformants pour l’analyse que laregression lineaire. C’est le cas notamment lorsque la variable dependante (la variable que l’oncherche a expliquer) est une variable qualitative. On peutalors faire appel aux modeles de choixdiscrets, qui associent a chaque reponse possible (ou modalite) une “utilite” dependant de sescaracteristiques et de celles du sujet considere. En fonction de ces utilites, on calcule ensuite uneprobabilite de reponse pour chaque modalite. La calibration du modele s’effectue en maximisantle produit des probabilites des reponses observees, la “vraisemblance”.

Le modele Probit

Le modele Probit etablit une relation non lineaire entrela probabilitepi d’avoir un choix par-ticulier (ici, parmi deux eventualites1 et 0, ou encore etre pauvre ou non pauvre) et un vecteurde variables explicatives pertinentes. Cette probabilit´e appartient evidemment a l’intervalle [0,1] puisque ce choix est dichotomique.

Pour formaliser ce fait, on note parui un indice latent, lineaire enβ defini pour chaqueindividu i de l’echantillon par :

ui = x′

iβ = β1 + β2xi2 + · · ·+ βkxik (III.1)

Le vecteurβ est le meme pour tous les individus de l’echantillon. En pratique,ui est nonobservable mais depend des caracteristiques individuellesxi. Sans contraintes sur le vecteurβ ni

2Moindres Carres Ordinaires

Page 45: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 23

sur les valeurs des variablesxi, ui. La variable qui est effectivement observee est l’etat discretyi

de l’unitei, qui est represente par l’une des deux eventualites0 ou1.

On suppose en plus, sans perte de generalite, que plusui est grand, plus la probabilite d’avoirl’eventualite1 est grande. On note alorspi = P (yi = 1). Puisquepi ∈ [0,1], la relation croissanteentreui etpi peut prendre la forme generale d’une fonction de repartition notee F.

Lorsque la fonction de repartition choisie pour representer cette fonction de repartition F estcelle d’une loi normale centree reduite, le modele construit est dit un modele Probit, et on a :

pi = P (yi = 1) = F (ui) =

∫ ui

−∞

1√2π

e−u2

2 du (III.2)

Dans le modele Probit, les parametresβj n’ont pas la meme interpretation que dans un modelede regression lineaire. En effet, dans ce modele on a :∂pi/∂xij = βjf(x

iβ), f etant la fonction dedensite de probabilite de la loi normale centree reduite etβj la jeme composante du vecteurβ.

Comme la valeur def(x′

iβ) est toujours positive, le signe deβj determine le sens de variationde la probabilitepi lorsquexij varie. Quant a l’ampleur de la variation de la probabilitepi suitea une variation dexij , elle est determinee par la valeur du parametreβj et aussi par la valeur def(x

iβ), toutes les deux evaluees avec les valeurs des estimations des parametres. Cette variationde la probabilitepi n’est donc pas constante d’un individu a l’autre et n’est pas la meme pour unememe augmentation de l’indiceui. La fonction de densite de probabilite de la loi normale centreereduitef etant symetrique et atteignant sa valeur maximale au point ui = x

iβ = 0, c’est donc auvoisinage deui = 0 que la variation∂pi/∂xij est la plus importante. Autrement dit, l’effet d’unevariation dexij surpi est toujours plus important pour des unites pour lesquelles les valeurs deui

sont proches de0. Par contre, pour des valeursui tres faibles ou encore tres elevees, c’est-a-diredes valeurs depi proches de0 ou proches de1, l’effet d’une variation dexij surpi est faible etl’etat ou la decision de l’unite en question est difficilea faire changer avec une modification dexij .

Dans le modele Probit, comme dans les modeles de regression, on cherche a estimer le vec-teurβ des parametres. Dans ce cas, la variable dependantey est une variable aleatoire discrete (etprend une des deux valeurs0 ou 1). Elle est distribuee suivant une loi de Bernoulli noteeB(pi).Le modele correspondant, qui fait le lien entre la probabilite pi et les variables explicatives rete-nues, est non lineaire pour les parametres contenus dans le vecteurβ. La methode d’estimationutilisee est celle du maximum de vraisemblance.

Le modele Logit

Ce modele, tres utilise, est une alternative au modele Probit. Ils sont en effet assez interchan-geables et le contexte de leur utilisation est pratiquementle meme. Ces deux modeles ne differenten fait que par la forme de la fonction de repartition utilisee pour definir le modele a probabilitenon lineaire qui fait le lien entre la probabilitepi et les variables explicatives retenues. C’est aussi

Page 46: Methodes statistiques appliqu´ ees´ a la` complexite du

24 III. A NALYSE PREDICTIVE DES DONNEES

un modele non lineaire pour les parametres contenus dansle vecteurβ.

Pour le modele Logit, la fonction de repartition F retenueest celle de la loi logistique, c’est-a-dire que :

pi = P (yi = 1) = F (ui) = f(x′

iβ) =1

1 + e−x′

(III.3)

Compare au modele Probit, le modele Logit a clairement une forme explicite plus simple. Lafonction de distribution de la loi logistique est en effet plus facile a utiliser, plus lisse, symetriquepar rapport a0 et plus aplatie que la distribution normale centree reduite. Ce sont en general lesraisons qui font que le modele Logit est plus utilise que lemodele Probit.

Comme pour le modele Probit, l’estimation des parametresdu modele Logit se fait egalementpar la methode du maximum de vraisemblance. L’estimationβ de β obtenue dans le cas dumodele Logit est numeriquement differente de celle obtenue avec le modele Probit, mais l’es-timateur Logit possede les memes proprietes asymptotiques que celui du modele Probit. Toutel’inference statistique qui est alors effectuee est la mˆeme et obeit aux memes regles. L’estimationde la variance asymptotique de l’estimateurβ est naturellement un peu differente. Sur le plannumerique, ce modele est estime de la meme facon que le modele Probit.

Une variable aleatoireX suit la loi logistique standard si elle est absolument continue etadmet pour densite :

f(x) =e−x

(1 + e−x)2(III.4)

Remarque : la densite de la loi logistique est tres proche de la densite de la loi gaussienne(moyenne nulle et variance unite). L’esperance et la variance de la loi logistique standard valent :

E(X) = 0 et V (X) =π2

3(III.5)

La regression lineaire n’est alors pas possible pour deuxraisons. La regression lineaire peuts’etendre a l’infini lorsque la valeur de la variable independante s’accroıt jusqu’a l’infini, alorsqu’une probabilite, par definition, doit se situer entre0 et 1. La regression avec une variablebinaire ne pourrait pas respecter le principe de la distribution normale, car toutes les valeurs sesituent a0 ou a1.

En definitive, on notera que le modele de regression logistique se distingue du modele deregression lineaire de part :

1. la distribution de la variable dependante n’est pas normale mais binomiale

2. le modele de regression est non-lineaire

3. la variance est heteroscedastique

Page 47: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 25

Il est possible de realiser une regression logistique pour predire les valeurs d’une variablecategorielle comportantK (K > 2) modalites. On parle de regression logistique polytomique.La procedure repose sur la designation d’un groupe de reference, elle produit alors (K − 1)combinaisons lineaires pour la prediction. En d’autres termes, si la variable categoricielle com-porte plus de deux categories (variable polytomique), uneseule variable dummy ne suffit plusa representer toutes les categories. Dans ce cas, il convient de faire usage de plusieurs variablesdummy.

La regression logistique cree, pour chaque classe, une “Fonction de Decision”. Chaque ob-servationx est affectee a la classe dont la fonction de decision prend la valeur la plus elevee. LesFonctions de Decision sont le plus souvent lineaires, et occasionnellement quadratiques. Ellessont calculees a partir de l’hypothese restrictive selon laquelle les classes ont des distributionsnormales. Quand cette hypothese est convenablement verifiee, la regression logistique permetnon seulement de generer des regles d’affectation, maisde plus de calculer les probabilites, pourchaque observation, d’appartenance a chacune des classes(probabilites dites “a posteriori”).

III.1.2 Choix du modele logistique ordonne

Lorsque les modalites sont ordonnees (on peut etre par exemple “plutot pas d’accord ”,“plutot d’accord”, “totalement d’accord”. . . ), il est important d’en tenir compte au niveau dela modelisation. Une facon naturelle de representer le processus de decision consiste a definirune “variable latente”, continue et dont le niveau determine la reponse finale du sujet. Le passagede la variable latente a la reponse effective s’effectue au moyen de seuils. La mention au bacca-laureat, par exemple, est une variable qualitative determinee par la moyenne obtenue a l’examen(et qui joue donc le role de variable latente), avec des seuils egaux a10, 12, 14, 16. . . Le modelelogistique ordonne est un modele de choix discret s’appuyant sur ce type de modelisation.

Le secteur peut se caracteriser selon trois etats : “groupe”, “arme” et “degroupe”. La variablede sortie presente alors trois attributs, ranges de facon ordonnee. En effet, lorsque le trafic aerienest trop important, le controleur degroupe son secteur. Inversement, si le nombre d’aeronefs envol est raisonnable, le controleur peut s’occuper de plusieurs secteurs en meme temps. Chacundes “sous secteurs” de son secteur controle (arme) aura donc le statut “regroupe”. On est bien enpresence d’une variable ordinale car elle ne prend qu’un nombre limite de valeurs et que celles-ci peuvent etre naturellement ordonnees dans un ordre croissant. La variable latente (noteeY )associee a l’etat du secteur doit etre construite. On codifie respectivement ces etats de un a trois(voir annexe B.3). Neanmoins d’autres facteurs susceptibles d’affecter son jugement ne peuventetre ou ne sont pas observes dans l’experience. Il faut donc decomposerY en une composanteobservee et une composante non observee :Y = β

x + ε. Usuellement, la composante nonobserveeε est considere comme un bruit, donc une variable aleatoire dont la loi determine laprobabilite des reponses. On peut illustrer cette situation par un exemple avec quatre seuils (etdonc cinq reponses possibles) ou plus generalement par la figure III.1.2.Y est distribuee autourdeβ

x selon la distribution deε .La probabilite de la reponsey = 0 (resp.y = 1) est l’aire situeesous la courbe pour les valeurs deY ≤ α1 (resp. pour les valeursα1 ≤ Y ≤ α2). . .

Page 48: Methodes statistiques appliqu´ ees´ a la` complexite du

26 III. A NALYSE PREDICTIVE DES DONNEES

β ′.X

Ri−1 Ri Ri+1

P (Ri−1|X)

L’aire sous la courbe est laprobabilite que la variable la-tente prenne la reponseRi sa-chant les evenements de X.

FIG. III.1 – Exemple de distribution des reponses

Dans le modele logistique, le bruit est distribue selon une loi logistique dont la fonction derepartition estF (t) = Prob(ε ≤ t) = et/1+et. Cette loi est proche d’une loi gaussienne. Parexemple la probabilite de la reponsey = 0 est :Prob(y = 0) = Prob(Y ≤ α1) = Prob(β

x +ε ≤ α1) = Prob(ε ≤ α1 − β

x) =

eα1−β′

x

1 + eα1−β′x

(III.6)

et la probabilite de la reponse y=1 :Prob(y = 1) = Prob(α1 ≤ Y ≤ α2) = Prob(α1 − β′

x ≤ε ≤ α2 − β

x) =

eα2−β′

x

1 + eα2−β′x− eα1−β

x

1 + eα1−β′x

(III.7)

Les probabilites des autres reponses sont obtenues de fac¸on equivalente. Le modele logistiqueordonne est donc prefere au modele logistique polytomique nominal car la variable resultat estordinale et que ces valeurs ont une relation apparente.

III.2 Application aux donn ees

III.2.1 Analyse d’un echantillon

Le nombre d’observations etant trop important, l’etude est realisee sur trois echantillons dedeux milles points pris sur l’ensemble des secteurs a troisetats (voir l’algorithme utilise enannexe B.4). Pour tirer au hasard un nombre de points fixe, onutilise la routinesampledu logicielR. On execute une regression grace a la methodepolr. Elle est utilisee pour une regressionlogistique lorsque la variable reponse est ordonnee. L’objectif de cette section est de construireun modele statistique expliquant au mieux les etats de regroupements (la variable cible), a partir

Page 49: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 27

Coefficients :

Value Std. Error t valuevol 0.16766590 0.10102301 1.65968034nb 6.08816012 1.11180416 5.47592855nb2 0.69045629 1.93102105 0.35756021var v 0.21136042 0.18062077 1.17018891nb des -0.17089030 0.17591223 -0.97145205nb mon -0.36767883 0.19037095 -1.93138097sqrt var sur moy -0.51294843 0.19355104 -2.65019722flux5 0.03985098 0.15522668 0.25672764flux15 0.65558769 0.30276469 2.16533737flux30 0.77057915 0.42913887 1.79564053flux60 1.09137231 0.32440726 3.36420427vprox 1 -0.13185343 0.11139026 -1.18370705vprox 2 -0.66778421 38.16922412 -0.01749536hprox 1 -0.13222888 0.10216508 -1.29426685densp -4.83967660 1.96786712 -2.45935131desang -0.33478952 0.68973562 -0.48538818desvit 0.30107530 0.49346434 0.61012576div p -0.09513792 0.76352534 -0.12460348conv p -0.66342828 0.98552138 -0.67317493sensid 0.49579859 0.72793029 0.68110723sensic 1.04949526 0.88989031 1.17935350insend -0.22824739 0.32646050 -0.69915774insenc 0.36672291 0.40087914 0.91479669inter vert 2.56499773 0.95355201 2.68994005chgt niv 0.23666795 0.08345476 2.83588316inter hori 0.23558537 0.59672885 0.39479467creedbon -1.13744076 0.36566268 -3.11062857creedpb 0.08268931 0.40717138 0.20308232Residual Deviance : 2064.403AIC : 2124.403

Intercepts :

Value Std. Error t value1—2 -2.9443 1.1808 -2.49342—3 -0.2810 1.1780 -0.2385

TAB. III.1 – Coefficients des predicteurs lineaires et les constantes entre les classes

Page 50: Methodes statistiques appliqu´ ees´ a la` complexite du

28 III. A NALYSE PREDICTIVE DES DONNEES

des indicateurs de complexite et du volume du secteur. Un exemple de resultat sur un echantillonest presente dans la table III.1 de la page precedente.

Le tableau des coefficients montre que les indicateurs de complexite ne prennent pas tous lememe signe. Par exemple, si on interpretenbetdensp, on remarque que le coefficient du nombreest d’environ6, 09 et celui de la densite d’environ−4, 84. A la difference du chapitre precedentou l’on avait fixe le nombre et ou la densite n’avait de lien qu’avec la proximite, on considere iciqu’elle est tres fortement liee au nombre. Si les avions sont tres proches on peut noter quedenspest approximativement egal an2. densp etant un indicateur de complexite, il devrait avoir unsigne positif car plus il est eleve plus la situation du trafic est difficile a controler. Dans la table,le signe est negatif, ce qui est contre intuitif. L’explication vient de la definition de la densitequi montre une colinearite avec le nombre d’avions. En effet, on parle ici de densite : “la ou estl’avion” et on la calcule comme suit :

Dens(i) =

N∑

j=1

f(dobij ) (III.8)

oudobij est la distance “elliptique” entre deux avions (i et j). Delahaye et Puechmorel utilisent une

fonctionf pour ponderer les paires d’avions. La fonction proposee est :

f(dobij ) = e−αdob

ij (III.9)

ouα est un coefficient a determiner. Mais dans [14], aucune valeur deα n’est suggeree. Dans lerapport [19], qui reprend les indicateurs de [14], les poidssont donnes (probablement de manierearbitraire) par :

f(dobij ) =

e−α(dobij )2 + e−βdob

ij

2(III.10)

ouα = 0.002, β = 0.01 et ou les distances sont exprimees en nautiques. C’est cette fonction quel’on a choisi d’utiliser dans cette etude. On remarque que la contribution de l’avion considere estegale a 1. Pour obtenir l’indicateur final, on somme sur lesavions du secteur considere. A priori,on devrait observer une tres forte correlation avec le nombre d’avions dans le secteur. En d’autresmots, la densite exprime a la fois une notion de nombre et une notion de proximite des avionsdans un secteur. Donc, ce modele ainsi construit n’est pas approprie pour expliquer la decisionde changer le statut du secteur aerien car on s’apercoit que certaines variables explicatives sontcorrelees. Beaucoup d’entre elles possedent un coefficient negatif. Pour eviter ce probleme, onpeut realiser une Analyse en Composantes Principales pourrestreindre le nombre d’indicateurs(cf. S2D2). On se sert aussi du critere d’Akaike (AIC) pour identifier les variables redondanteset c’est ce que la sous-section suivante va montrer. De plus,on constate que les modeles des troisechantillons different. On ne retrouve pas le meme ordrede grandeur ou le meme signe devant lescoefficients. Cette regression ne permet pas alors de construire un unique modele. On a constateque la correlation (ou colinearite) entre deux variables independantes peut affecter la stabilite deleurs coefficients dans le modele. Plus forte est la correlation, plus grandes sont les variances,

Page 51: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 29

plus grande est l’instabilite des coefficients. Par consequent, on souhaite pouvoir restreindre lenombre de variables grace notamment a l’importance de l’information qu’elles peuvent appor-ter. Il est possible d’utiliser des procedures automatiques de selection pour la construction d’unmodele. Ces procedures visent a identifier les variablesqui, en tenant compte des autres, per-mettent d’expliquer de facon significative la deviance totale.

III.2.2 Procedures automatiques de selection des variables

Lorsqu’on elabore un modele statistique, le but est d’identifier une relation liant le com-portement d’une variable resultat en fonction de differentes variables de situation. Si on choisitun grand nombre de variables explicatives, cela permet de prendre en compte une quantite im-portante de facteurs et d’interactions existant dans le ph´enomene observe. On pourrait croireque plus le nombre de variables choisi est important, plus lemodele refletera de maniere fiableles evenements. On se convainc facilement qu’une augmentation du nombre de parametres dumodele augmente sa souplesse, et donc sa capacite a rendre compte des donnees d’apprentis-sage. Mais on decouvre egalement qu’a partir d’un certain point, une augmentation du nombrede parametres conduit a une degradation des performances du modele sur les donnees nouvelles,les seules performances importantes. Donc un modele plus complet pourra s’averer moins fiablequ’un modele restreint. C’est a dire, lorsqu’une structure possede une trop grande capacite a sto-cker des informations, elle aura de la peine a generaliser les caracteristiques des donnees.

Les auteurs du projet S2D2 ont fait face au probleme desur-apprentissage(en anglais “over-fitting”) lors de l’utilisation de leur methode mathematique de classification, des reseaux de neu-rones. Il est en general provoque par un mauvais dimensionnement de la structure utilisee pourclassifier. De part sa trop grande capacite a stocker des informations, une structure dans une situa-tion de sur-apprentissage aura de la peine a generaliserles caracteristiques des donnees. Elle secomporte alors comme une table contenant tous les echantillons utilises lors de l’apprentissage etperd ses pouvoirs de prediction sur de nouveaux echantillons. Pour detecter un sur-apprentissage,ils ont separe les donnees en deux sous-ensembles : l’ensemble d’apprentissage et l’ensemble devalidation des previsions du reseau. Ils ont donc souhaite eviter le probleme de sur-apprentissage.Dans ce but, ils ont eu l’idee d’utiliser le critere d’Akaike (AIC, Akaike Information Criterion)ou des criteres derives tels le BIC de Schwartz (Bayesian Information Criterion).

Pour diminuer le nombre de variables de situation dans le modele de regression logistique, onchoisit aussi d’utiliser le critere d’information d’Akaike. Il interviendra dans les procedures deselection ascendante et descendante des variables. Ces deux outils vont permettre de construireun modele simplifie afin de connaıtre l’importance du poids des indicateurs de complexite.

Crit ere d’Information d’Akaike

Il existe differentes procedures permettant de selectionner le meilleur modele, et les proceduresles plus utilisees aujourd’hui par les statisticiens derivent de criteres statistiques calcules pour

Page 52: Methodes statistiques appliqu´ ees´ a la` complexite du

30 III. A NALYSE PREDICTIVE DES DONNEES

tous les modeles possibles. L’exemple le plus celebre d’un tel critere est celui d’Akaike (cou-ramment utilise maintenant pour les modeles lineaires generalises). En tout cas, il semble que lestests marchent toujours moins bien (et souvent beaucoup moins bien) que ces criteres (il n’y a au-cune raison a priori que le niveau magique de0.05 permette de realiser ce compromis entre biaiset variance ; pour la petite histoire rappelons que le niveaude0.05 est en partie la consequenced’un probleme de copyright entre Karl Pearson et Ronald Fisher. . . )3.

Le Critere d’Information d’Akaike (critere AIC) est une mesure correcte des modeles statis-tiques. Il quantifie relativement le bon ajustement des variables. Il utilise une methode rigoureused’analyse d’information basee sur le concept d’entropie.L’idee cachee derriere le critere AIC estd’examiner en meme temps la complexite du modele et le bonajustement aux divers echantillons,et de produire une mesure qui relie les deux. Sa formule est :

AIC = 2k − 2lnL (III.11)

ouk est le nombre de parametres non ajustes du modele, etlnL est la log-vraissemblance.

Un modele comportant un grand nombre de parametres fournira un bon ajustement desdonnees, mais aura peu de degre de liberte et aura une utilite restreinte. Le modele choisi estcelui qui possede la plus petite valeur de l’AIC. La methodologie de l’AIC est donc de trouver lemodele minimal qui explique correctement les donnees etudiees.

Comprendre le comportement des outils de selection de mod`ele est simple lorsque ses tech-niques sont vues comme des techniques de recherche. En effet, cela consiste a trouver des sousensembles possibles des variables predictives. Un critere d’evaluation comme l’AIC affecte achaque sous ensemble une valeur numerique, et le but de la recherche est de trouver le sous en-semble qui aura la plus grande valeur numerique. La seule difference entre les techniques tientdans le fait du choix du sous ensemble de depart et de la specification des sous ensembles voisins.

Procedure de selection descendante (BACKWARD)

Sur le meme echantillon que precedemment, voici le mod`ele final que l’on obtient apres avoirapplique la routinestep. On utilise la directionbackward. Le premier sous ensemble dans cetteselection inclut toutes les variables predictives du modele. Elles sont ensuite supprimees une parune jusqu’a ce que les resultats dans le sous ensemble ont le critere d’evaluation le plus eleve, enfait la routine enleve les variables qui possedent la valeur d’AIC la plus elevee.

Certains chercheurs preferent la selection backward ala selection forward lorsque les va-riables predictives sont loin d’etre statistiquement independantes. Il est pertinent d’en parler caron est en presence de variables colineaires. Dans ce cas, commencer la recherche avec toutes lesvariables predictives permet au modele de prendre les interactions de ces variables comme uneexplication. La selection forward n’ajoutera pas deux variables predictives qui pourront expliquer

3WhyP = 0.05 ?, http ://www.tufts.edu/ gdallal/p05.htm

Page 53: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 31

les variations au sein des variables si, individuellement,les variables predictives n’aident pas al’explication des variations. La selection backward, d’un autre cote, inclurait deja deux des cesvariables et realiserait que c’est une mauvaise idee de supprimer l’une ou l’autre. L’inconvenientde la selection backward est qu’avoir confiance dans les valeurs des criteres d’evaluation auratendance a donner de moins bons resultats. Certaines de ces informations ont ete obtenues sur lesite de Rogue Wave Software.

Modele Final :as.factor(y) ∼ vol+nb+var v+nb mon+sqrt var sur moy+flux15+flux30+flux60+vprox 1 + hprox 1 + dens p + insen d + inter vert + chgt niv + creed bon

Il reste encore dans le modele final des variables predictives colineaires. Exemple, les indi-cateursvprox 1, hprox 1 traduisent respectivement la proximite verticale et horizontale ; on saitque cette notion de proximite est correlee avec celle de la densite :densp. La methode backwardn’a pas supprime un nombre important de variables, il en reste encore plus de la moitie. On a pasreussi a construire un modele restreint de nos indicateurs de complexite.

Voici une liste des parametres qui ont ete supprimes du modele initial au tableau III.2, avecl’ordre de suppression.

Step Df Deviance Resid. Df Resid. Dev AIC1 -30 2064.403 2124.4032 - div p 1 0.01535332 -29 2064.419 2122.4193 - creedpb 1 0.04436760 -28 2064.463 2120.4634 - flux5 1 0.06757189 -27 2064.531 2118.5315 - nb2 1 0.13864202 -26 2064.669 2116.6696 - inter hori 1 0.21543512 -25 2064.885 2114.8857 - desang 1 0.16810010 -24 2065.053 2113.0538 - desvit 1 0.30706696 -23 2065.360 2111.3609 - sensid 1 0.42190074 -22 2065.782 2109.78210 - conv p 1 0.58926291 -21 2066.371 2108.37111 - insenc 1 0.36230414 -20 2066.733 2106.73312 - sensic 1 0.67899852 -19 2067.412 2105.41213 - vprox 2 1 1.06099204 -18 2068.473 2104.47314 - nb des 1 1.18360365 -17 2069.657 2103.657

TAB. III.2 – Parametres supprimes du modele initial

La methode backward ne retire pas les memes variables pourles trois echantillons. Le critered’information d’Akaike ne permet pas de construire un seul modele pour l’ensemble des donnees.

Page 54: Methodes statistiques appliqu´ ees´ a la` complexite du

32 III. A NALYSE PREDICTIVE DES DONNEES

Procedure de selection ascendante (FORWARD)

La procedure de selection ascendante des variables proc`ede a partir du modele de base quine contient aucune variable. Les differentes variables sont ensuite introduites une a une, encommencant par la variable la plus significativement associee a l’evenement et les autres condi-tionnellement aux variables deja dans le modele. Une variable selectionnee pour le modele ferapartie du modele final. Le critere de selection, purementstatistique, est base sur la valeur del’AIC. La premiere variable admise dans le modele est celle qui presente la plus faible valeurAIC si cette valeur est inferieure a un seuil prealablement fixe. Puis, la seconde variable la plussignificative conditionnellement a la premiere dans le modele, puis une troisieme, etc jusqu’a cequ’il n’y en ait plus aucune qui respecte le critere de selection. Toutes les variables choisies sontalors retenues dans le modele.

Le probleme de la selection forward est qu’il n’est pas garanti de trouver le sous ensembleavec le meilleur critere d’evaluation. En pratique, pourtant, quelques chercheurs ont obtenu debons resultats (Miller,1990)4. Mais il n’est pas difficile de montrer que cette selection trouverale sous ensemble avec le meilleur critere d’evaluation quand les variables predictives sont statis-tiquement independantes et que la variable d’observationest modelisee comme une combinaisonlineaire des variables predictives.5. Certaines de ces informations ont ete obtenues sur le site deRogue Wave Software.

Le resultat de la methodeforward est le tableau III.3, page suivante.

Modele final s’ecrit sous la forme :as.factor(y) ∼ nb + flux30 + dens p + sqrt var sur moy + flux60 + nb2 + creed bon +flux15 + inter vert + vprox 1 + insen d + vol + chgt niv + nb mon

On remarque ici que le modele comporte encore des variablescolineaires. Ceci se voit clai-rement au travers de la presence denb (le nombre) etnb2(le nombre au carre). La procedure deselection ascendante retient le meme nombre de parametres sur chaque echantillon mais montretrois constructions de modele differentes

III.2.3 Comparaison des troisechantillons

Grace aux trois echantillons realises, on a obtenu trois modeles. Dans les tableaux III.4 etIII.5, on compare respectivement les differents resultats de la methode backward et forward afinde reperer la repetition de certaines variables. De cette maniere, si on s’apercoit de la presencede parametres recurrents au trois echantillons, on peutessayer de construire un modele manuel-lement et ensuite le tester.

4Certains y referent aussi comme le test du rapport de vraisemblance5C’est le cas lorsque la variable d’observationy s’ecrit en fonction des variables predictivesxi commey =

f(∑

iβixi)

Page 55: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 33

Coefficients :

Value Std. Error t valuenb 5.4651196 0.56239234 9.7176281flux30 0.6763333 0.42443613 1.5934867densp -3.2726932 0.49428308 -6.6210909sqrt var sur moy -0.3262213 0.08194270 -3.9810908flux60 1.1399255 0.32245064 3.5351938nb2 1.4649706 1.82599440 0.8022865creedbon -1.1961548 0.33795656 -3.5393744flux15 0.6893677 0.26842493 2.5681956inter vert 2.2369990 0.86628017 2.5823042vprox 1 -0.1598201 0.12448037 -1.2838979insend -0.3125924 0.13462709 -2.3219131vol 0.1575269 0.09961386 1.5813752chgt niv 0.1795197 0.07273142 2.4682547nb mon -0.3198265 0.15260961 -2.0957165Residual Deviance :2073.32AIC : 2105.32

Intercepts :

Value Std. Error t value1—2 -2.9913 0.3223 -9.28072—3 -0.3380 0.3116 -1.0849

TAB. III.3 – Coefficients des predicteurs lineaires et les constantes entre les classes

On s’apercoit, dans le tableau III.4 page suivante, quevprox 1 et convp n’ont pas le memesigne dans les differents modeles. On n’a aucune raison pour expliquer cette opposition de signe.Seuls :vol, nb, sqrt var sur moy, flux30, hprox 1 et inter vert figurent dans les trois modelesavec le meme signe. Ces six indicateurs sont independantset peuvent etre retenu dans le modelefinal. Flux15, flux60, vprox 1, densp, insend, creedbon, nb deset convp sont dans au moinsdeux modeles.

Si on somme la valeurs des parametres deflux15, flux30et flux60dans le premier et der-nier echantillon, on s’approche de la valeur que prendflux30dans le deuxieme. Les flux ren-seignent simplement sur le nombre d’avions entrant dans le secteur. On pourrait donc remplacerles differents flux parflux30car il se trouve dans les trois echantillons.

On remarque dans le tableau III.5, page 35, quevprox 1 est le seul indicateur qui n’a pasle meme signe. Les parametres :nb, flux30, sqrt var sur moy, flux60, inter vert et vol sont

Page 56: Methodes statistiques appliqu´ ees´ a la` complexite du

34 III. A NALYSE PREDICTIVE DES DONNEES

Premier Echant Deuxieme Echant Troisieme Echantvol 0.1692313 0.2195808 0.33676047nb 5.6406177 5.0571679 3.48596595var v 0.2588920nb mon -0.3006714sqrt var sur moy -0.5577447 -0.2023700 -0.25580219flux15 0.6984919 0.83761420flux30 0.6722633 2.3839648 1.13692112flux60 1.1402703 0.89537765vprox 1 -0.1391121 0.07263278hprox 1 -0.1286027 -0.1976470 -0.24141008densp -2.8329822 -2.7527236insend -0.3180025 -0.58549331inter vert 2.4147673 2.1952026 2.87425258chgt niv 0.1942421creedbon -1.1662106 -0.6955309nb des -0.3221041 -0.33524974desang -0.8475122conv p 1.4285190 -0.72296547insenc -0.4471682vprox 2 -0.31097761desvit -1.33065403div p 0.75060451

TAB. III.4 – Comparaison des trois echantillons a partir de lamethode backward

tous presents dans les trois regressions. Or, on peut remplacer de la meme maniere les flux parflux30comme precedemment. Ce qui nous amene a constater que l’on retrouve cinq indicateursdu resultat de la methode backward.Densp, nb2, creedbon, flux15, vprox 1, insend, nb des,hprox 1 sont au moins dans deux modeles.

Pour conclure,vol, nb, flux30, sqrt var sur moyet inter vert se retrouvent dans les resultatsde la methode backward et forward. Le modele que l’on va construire contiendra alors respec-tivement le volume du secteur, le nombre d’avions presentsdans le secteur, le nombre d’avionsentrant dans les30 minutes, le rapport de l’ecart-type des vitesses sur la vitesse moyenne desavions presents dans le secteur et l’interaction verticale. Le modele final s’ecrit :

y = vol + nb + flux30 + sqrt var sur moy + inter vert (III.12)

On a fusionne les trois echantillons pour faire une regression a partir du modele final : le butetant de connaıtre la valeur de ces parametres. En fait, on a constitue ce plus grand echantillon enpensant que les observations seront bien plus adaptees pour donner aux coefficients du modeledes resultats significatifs.

Page 57: Methodes statistiques appliqu´ ees´ a la` complexite du

III. A NALYSE PREDICTIVE DES DONNEES 35

Premier Echant Deuxieme Echant Troisieme Echantnb 5.4651196 5.0810267 3.30577703flux30 0.6763333 2.0084953 1.14116167densp -3.2726932 -2.9150098sqrt var sur moy -0.3262213 -0.2221810 -0.24779371flux60 1.1399255 0.4415477 0.89958457nb2 1.4649706 0.64752300creedbon -1.1961548 -0.5342169flux15 0.6893677 0.83796439inter vert 2.2369990 2.1613622 2.74752824vprox 1 -0.1598201 0.07251715insend -0.3125924 -0.58277573vol 0.1575269 0.2177328 0.32829431chgt niv 0.1795197nb mon -0.3198265nb des -0.3332742 -0.32962616hprox 1 -0.2118114 -0.23569210desang -0.5724675sensic 0.7785403desvit -1.35826629conv p -0.73153488div p 0.74597455vprox 2 -0.34262965

TAB. III.5 – Comparaison des trois echantillons a partir de lamethode forward

Interpr etation du modele final

Le parametresqrt var sur moya un signe negatif, ce qui n’est pas tres intuitif, puisqu’ons’attendrait a ce que la complexite a controler le traficaugmente lorsque celui-ci devient plusheterogene (differents types d’avions dans le secteur, cohabitation d’avions en palier et en evolutionverticale...). Ce signe inattendu peut s’expliquer par un probleme d’interaction avec le volume.En effet, les secteurs d’approche et d’arrivee, ou le trafic est le plus diversifie, sont souvent pluspetits que les secteurs de controle en-route. Les variables “volume” et sqrt var sur moy sontdonc co-determinees, bien que l’on ait choisi de ne pas integrer le volume dans l’ACP. Il pourraitetre interessant, dans des travaux ulterieurs, d’approfondir cette question. On observe quenb etflux30ont plus de poids dans le modele quevol et inter vert6. Le nombre d’avions dans le secteurainsi que la prevision que d’autres y penetrent indiquent assez bien l’evolution que peut prendrela complexite du trafic.

On a realise une procedure ascendante sur le modele final. On est parti de III.12 pour ensuiteajouter tour a tour les variables les plus significatives. On esperait cependant que la procedure

6Il convient de rappeler a cette etape de l’analyse que l’ona travaille sur des variables normalisees.

Page 58: Methodes statistiques appliqu´ ees´ a la` complexite du

36 III. A NALYSE PREDICTIVE DES DONNEES

Coefficients :

Value Std. Error t valuevol 0.4438798 0.05192023 8.549264nb 2.7702832 0.15135670 18.303010flux30 2.2761509 0.09009770 25.263142sqrt var sur moy -0.3017575 0.04115009 -7.333094inter vert 0.5046548 0.34687775 1.454849Residual Deviance : 6586.077AIC : 6600.077

Intercepts :

Value Std. Error t value1—2 -2.5240 0.1002 -25.18302—3 0.0650 0.0904 0.7189

TAB. III.6 – Resultat de la regression sur la fusion des trois ´echantillons

ne completerait que legerement le modele. Elle l’etend avec9 variables. Finalement, le modelequ’on a construit manuellement n’a pas une qualite suffisante pour prevoir le statut du secteuraerien.

III.3 Conclusion

L’utilisation de ces deux procedures automatiques de selection des variables a permis demettre en evidence la difficulte de construction d’un bon modele, puisqu’elles ne s’accordent passur un jeu de variables. Par ailleurs, on observe que les indicateurs selectionnes presentent encorede fortes colinearites, qui rendent difficile l’interpr´etation7. Pour eviter ce probleme, il pourraitetre pertinent de revenir a une regression pratiquee sur les composantes principales (commedans [10], [21] et [22]). A noter que les derniers travaux effectues dans le cadre de S2D2 [24]s’appuient sur l’ACP pour essayer de selectionner un jeu d’indicateurs pertinents8. Il pourrait etreinteressant de comparer les resultats obtenus dans le cadre de ce stage avec les resultats presentesdans ce papier. . .

7Voir par exemple le parametre negatif associe a la densite.8Suivant, donc, une procedure differente de celles presentees dans ce chapitre.

Page 59: Methodes statistiques appliqu´ ees´ a la` complexite du

CONCLUSION

Les donnees manipulees durant cette etude ont ete recueillies sur plusieurs jours d’enregis-trements IMAGE et COURAGE : du16 mai 2003 au06 juin 2003, excepte le24 mai. Au

regard du volume de donnees que cela represente, on s’est restreint seulement a la manipula-tion de quelques secteurs. Ces dates ont ete choisies parce qu’elles presentent un trafic denseet possedent suffisamment de donnees pour chaque classe deregroupement. L’idee du projetS2D2 est d’evaluer la pertinence des indicateurs en s’appuyant sur l’etat de regroupement dessecteurs d’espace aerien. Les resultats obtenus dans desetudes anterieures ont souleve la ques-tion du bruit dans les donnees. Mon travail a donc d’abord porte sur l’estimation de la qualitedes donnees. On a demontre, a l’aide d’une analyse en composantes principales, l’existencede colinearite entre les indicateurs. On a ensuite procede a une analyse en clusters dans le butdevaluer l’“adaptation” des donnees au probleme du degroupement des secteurs. Cependant, lesresultats obtenus ne montrent pas la presence de “patterns” de trafic susceptibles d’expliquerle statut du secteur. La methode envisagee pour estimer laforce du bruit dans les donnees nepouvait donc etre implementee, les objectifs de l’etude ont ete modifies. Comme dans les tra-vaux precedents realises dans le cadre du projet S2D2, le but est devenu de chercher a degagerd’eventuelles correlation entre l’etat de regroupement des secteurs aeriens et les indicateurs decomplexite. Pour cela, et c’est la nouveaute, on a prefere utiliser la regression logistique plutotque les reseaux de neurones car son interpretation est plus facile (modele “quasi-lineaire”). Lemodele general finalement obtenu fait intervenir5 indicateurs. Malgre l’utilisation de proceduresautomatiques de selection du modele, on constate la presence d’une forte colinearite parmi lesindicateurs selectionnes, colinearite qui s’accompagne de signes parfois contre-intuitifs pour cer-tains parametres du modele. En conlusion, l’analyse descriptive des donnees a montre qu’il etaitdifficile d’estimer la force du bruit au sein des donnees collectees, en tous cas par la methodeinitialement envisagee. L’analyse predictive n’a pas r´eussi a construire un “bon” modele, en rai-son la persistance de colinearite parmi les indicateurs selectionnes. Pour des travaux futurs, ilpourrait etre interessant de revenir a la definition de certains indicateurs dont la construction faitl’effet d’un empilement de matriochkas : le premier indicateur est simple et traduit la notion dedensite, le second ajoute l’idee de convergence des flux, le troisieme tient compte, en plus, de ladifficulte a separer les flux. . . Difficile avec des definitions si emboıtees de distinguer avec acuitece qui a reellement un role. Une autre piste pourrait etrede s’interesser a des indicateurs moins

Page 60: Methodes statistiques appliqu´ ees´ a la` complexite du

38 CONCLUSION

”volatiles”, la variable dependante etudiee changeantpeu souvent d’etat.

Realiser mon stage au Laboratoire d’Economie et d’Econometrie de l’Aerien a ete tres ins-tructif. A mon arrivee, je ne connaissais aucun des outils que j’aurais a manipuler. J’ai doncdu apprendre a me servir du systeme d’exploitation Linuxet de ses divers logiciels. J’ai apprisa utiliser le logiciel statistique R grace aux renseignements fournis par internet et au supportfullrefmancontenu sur le site R-project. Tous ces outils m’ont permis d’appliquer les methodesetudiees en cours a des cas concrets. J’ai pu observer la vie dans un laboratoire de recherche,connaıtre leur quotidien : entre cours, conference a l’´etranger, recherche et RTT. J’ai egalementpu assister a une soutenance de memoire d’ingenieur avecles commentaires pre et post soute-nance du jury. . . Un moyen de passer, pour quelques minutes etavec un peu d’anticipation, del’autre cote du miroir.

Page 61: Methodes statistiques appliqu´ ees´ a la` complexite du

BIBLIOGRAPHIE

[1] GUITTET Kevin, Note pedagogique sur la classification des journees aeronautiques, 25juin 2004.

[2] SAPORTA G.,Probabilites, analyse des donnees et statistique, Technip,1990.

[3] KAUFMAN L. and ROUSSEEUW P.J.,Finding Group in Data : An Introduction to ClusterAnalysis, John Wiley & Sons,1990.

[4] SUGAR C.A. and JAMES G.M.,Finding the number of clusters in data set : An informationtheoretic approach, Journal of the American Statistical association98, 750-763, 2003.

[5] GIANAZZA D., Optimisation des flux de trafic aerienPhD thesis, Institut National Poly-technique de Toulouse,2004.

[6] BERNARD Paul-Marie,Regression logistique, Departement de Medecine Sociale etPreventive au Quebec (Canada), http ://www.uquebec.ca/reglog/index2.htm.

[7] Wikipedia, http ://fr.wikipedia.org/wiki/Accueil.

[8] Statistica, http ://www.statsoft.com

[9] The R Reference Index, http ://www.r-project.org.

[10] P. KOPARDEKAR and S. MAGYARITS,Measurement and prediction of dynamic density,In Proceedings of the5th USA/Europe Air Traffic Management, R & D Seminar,2003.

[11] G.B. CHATTERRJI and B. SRIDHAR,Measures for air traffic controller workload pre-diction, In Proceedings of the First AIAA Aircraft Technology, Integration, and OperationsForum,2001.

[12] K. GUITTET and D. GIANAZZA, Analyse descriptive des indicateurs de complexite dutrafic aeriena partir des donnees image et courage, Note nr05 − 905, DSNA/DTI/SDER,Decembre2005.

[13] P. KOPARDEKAR,Dynamic density : A review of proposed variables Faa wjhtc inter-nal document, overall conclusions and recommendations, Federal Aviation Administration,2000.

[14] D. DELAHAYE and S. PUECHMOREL,Air traffic complexity : towards intrinsic metrics,In Proceedings of the third USA/Europe Air Traffic Management, R & D Seminar,2000.

Page 62: Methodes statistiques appliqu´ ees´ a la` complexite du

40 BIBLIOGRAPHIE

[15] Note de synthese sur l’indicateur de complexite PRU, Technical report, DTI/SDER (exCENA), 2005.

[16] P. AVERTY, Conflit perception by acts admits doubt but not inconsistency In Proceedingsof the6th Air Traffic Management, Research and Developpment Seminar,2005.

[17] P. AVERTY, K. GUITTET and P. LEZAUD,Work in progress, presented at an internalSDER seminar, Technical report, DTI/SDER (former CENA),2005.

[18] D. GIANAZZA, J. M. ALLIOT, and G. GRANGER,Optimal combinations of air trafficcontrol sectors using classical and stochastic methods, In Proceedings of the2002 Interna-tional Conference on Artificial Intelligence,2002.

[19] F. CHATTON, Etudes de nouvelles metriques de complexite de la circulation aerienne,Master s thesis,Ecole Nationale de l’Aviation Civile (ENAC),2001.

[20] E. PFLEIDERER,Relationship of the aircraft mix index with performance andobjectiveworkload evaluation research (power) measures and complexity ratings, In Proceedings ofthe6th Air Traffic Management Research and Developpment Seminar,2005.

[21] GIANAZZA D. and GUITTET K,Evaluation of air traffic complexity metrics using neuralnetworks and sector status, 2nd International Conference on Research in Air Transportation,2006/06/24.

[22] GIANAZZA D. and GUITTET K., Reseaux de neurones appliques aux indicateurs decomplexite et aux regroupements de secteurs aeriens, Note DSNA/DTI/SDER NR-06-517,2006/04/28.

[23] GIANAZZA D. and GUITTET K., Analyse descriptive des indicateurs de complexite dutrafic aeriena partir des donnees IMAGE et COURAGE, Note DSNA/DTI/SDER NR-05-905, 2005/12/09.

[24] GIANAZZA D. and GUITTET K., Selection and evaluation of air traffic complexity me-trics, 25th DASC (2006/10/17).

Page 63: Methodes statistiques appliqu´ ees´ a la` complexite du

ANNEXE A

DETAIL DES INDICATEURS

A.1 Les indicateurs basiques

Dans cette famille, nous avons regroupe des indicateurs qui sont souvent utilises dans lesarticles portant sur la densite dynamique :

– “nb” : nombre d’avions presents dans le secteur.– “nb2” : carre du nombre d’avions presents dans le secteur.– “var v” : variance des vitesses.– “nb des” (resp. “nbmon”) : nombre d’avions en descente (resp. montee).– “sqrt var sur moy” : rapport de l’ecart-type des vitesses sur la vitesse moyenne des avions

presents dans le secteur.

Tous ces indicateurs sont ”simples”. Nous y avons ajoute quelques indicateurs de flux entrants :

– “flux 5”– “flux 15”– “flux 30”– “flux 60”

Il s’agit simplement du nombre d’avions entrant dans le secteur entre les instantst et t + δt,l’horizon temporelδt etant de5, 15, 30 ou60 minutes.

A.2 Les indicateurs de Chatterji et Sridhar

L’article [11] definit de nombreux indicateurs originaux.Nous n’avons reprogrammes dansle cadre de S2D2 que ceux qui ont ete retenus par Kopardekardans [10]. Dans cette section,dij

et hij representent respectivement les distances horizontaleset verticales entre les avions “i” et“j”.

Page 64: Methodes statistiques appliqu´ ees´ a la` complexite du

42 A. DETAIL DES INDICATEURS

– “vprox 1” : cette mesure de proximite verticale s’ecrit

vprox1 =N

1≤j≤N

1≤i≤N

Wijhij

1≤j≤N

Wij

, (A.1)

ou lesWij sont des poids definis par

Wij =

1

d2ij + S2

hh2ij

si i 6= j ,

0 si i = j .

(A.2)

“vprox 1” peut donc etre decrit comme l’inverse de la “distance verticale moyenne (ponderee)”.La ponderation est inversement proportionelle au carre de la distance elliptique.

– “vprox 2” : cette mesure de proximite verticale s’ecrit

vprox 2 =

1≤i≤N

[Ki 6= ∅]∑

1≤i≤N

minj∈Ki

{hij}, (A.3)

ouKi = {j | dij ≤ r, j 6= i} et r est un parametre qui definit le voisinage horizontal d’unavion1. Le parametrer utilise par les auteurs dans [11] n’est pas indique. Dans cette etude,nous avons choisi “arbitrairement”r = 5 milles nautiques. On peut ainsi decrire “vprox2”comme l’inverse de la ”separation verticale minimale moyenne pour les couples d’avionsqui ne sont pas separes horizontalement”.

– ”hprox 1” : cette mesure de proximite horizontale est definie par

hprox1 =1

min1≤i≤N

{minj∈Ji

{dij}}, (A.4)

ouJi = {j | hi − ∆/2 ≤ hj ≤ hi + ∆/2, j 6= i}.Comme dans le cas der pour “vprox 2”, ∆ est un parametre a fixer, et dont la valeurutilisee dans [11] n’est pas connue. Nous avons choisi∆ = 2000ft, de telle sorte que“hprox 1” represente “l’inverse de la plus petite distance horizontale entre deux avionsnon-separes verticalement”.

1En realite, le numerateur presente dans [11] n’etaitpas clair ([j ∈ Ki], sans somme surj), et son ecriture aete precisee. Sous cette forme, l’indicateur “vprox2” peut bien etre decrit comme la “average minimum verticalseparation”, comme c’est le cas dans [11].

Page 65: Methodes statistiques appliqu´ ees´ a la` complexite du

A. DETAIL DES INDICATEURS 43

Etrangement, bien que ces indicateurs aient ete utilises dans (au moins) deux etudes, ilspresentent un defaut qui n’est mentionne nulle part. En effet, les mesures de proximite ver-ticales “vprox 1” et “vprox 2” peuvent etre infinies. C’est le cas notamment lorsque tousles avions evoluent au meme niveau de vol. Avec les echantillons de trafic de taille faible etpresentant un nombre relativement eleve d’avions utilises dans [11] et [10], il est possible que ceprobleme n’ait pas ete identifie ; mais une journee de trafic est suffisante pour le faire apparaıtre.

Enfin, on peut observer que ces indicateurs (“doubles”) sontdefinis de maniere a corres-pondre a des quantites physiques facilement identifiables (distances horizontales et verticales) eta ne pas croıtre systematiquement avec le nombre d’avions actifs. On peut ainsi esperer qu’ilsseront faiblement correles avec le volume du trafic dans lesecteur considere.

A.3 Les indicateurs inspires par Delahaye et Puechmorel

L’article [14] presente differents indicateurs “geom´etriques” de complexite. Dans cette sec-tion, on ne retrouvera que ceux d’entre eux qui ne sont pas redondants avec d’autres variablesdefinies dans [10].

NotationsAvant de definir les indicateurs geometriques inspirespar [14] et [19], on introduit quelquesnotations :

– La distance “elliptique” entre deux avions (i et j) est noteedobij . Cette distance correspond

a la quantite√

d2ij + S2

hh2ij utilisee dans la section precedente et dans [11].

– Le vecteur qui represente la distance entre ces deux avions est note−−−→XiXj ouXi (resp.Xj)

represente la position de l’avioni (resp.j) dans l’espace.On a doncdob

ij = ‖−−−→XiXj‖.– La difference des vitesses des avionsi et j est definie par−→v ij = −→v j −−→v i.– La vitesse d’eloignement des avionsi et j est designee parvij . Cette vitesse (scalaire) est

definie parvij = ddt

[dobij ]. Elle vaut :

vij =<

−−−→XiXj,

−→v ij >

dobij

. (A.5)

Par ailleurs, Delahaye et Puechmorel utilisent une fonction f pour ponderer les paires d’avions(l’agregation des quantites calculees se faisant par somme ponderee sur l’ensemble des couplesd’avions2. La fonction proposee est

f(dobij ) = e−αdob

ij , (A.6)

ouα est un coefficient a determiner. Mais dans [14], aucune valeur deα n’est suggeree. Dans lerapport [19], qui reprend les indicateurs de [14], les poidssont donnes (probablement de maniere

2D’ou l’on devine que les indicateurs considerees serontdes indicateurs “doubles”.

Page 66: Methodes statistiques appliqu´ ees´ a la` complexite du

44 A. DETAIL DES INDICATEURS

arbitraire) par

f(dobij ) =

e−α(dobij )2 + e−βdob

ij

2, (A.7)

ou α = 0.002, β = 0.01 et ou les distances sont exprimees en nautiques. C’est cette fonc-tion que l’on a choisi d’utiliser dans cette etude, mais on pourrait choisir “toute autre” fonctiondecroissante de la distance.

A.3.1 La densite

La notion de densite differe de celle utilisee par Kopardekar (pour qui il s’agit du nombred’avions divise par le volume du secteur). On parle ici de densite “la ou est l’avion” :

Dens(i) =

N∑

j=1

f(dobij ) . (A.8)

On remarque que la contribution de l’avion considere est ´egale a1. Pour obtenir l’indicateurfinal, on somme sur les avions du secteur considere. A priori, on devrait observer une tres fortecorrelation avec le nombre d’avions dans le secteur (pour la limiter, on pourrait negliger la contri-bution d’un avion sur lui-meme).

A.3.2 La divergence et la convergence

Les indicateursDiv et Conv decrivent respectivement la divergence et la convergencedesavions dans le secteur considere. On retrouve la ponderation en fonction des distances entreavions. Les indicateurs sont definis par :

Div(i) =N

j = 1j 6= i

1R− (vij) . |vij| f(dobij ) , (A.9)

Conv(i) =

N∑

j = 1j 6= i

1R+ (vij) . |vij| f(dobij ) . (A.10)

La difference entre les deux indicateurs tient donc aux avions pris en compte dans le calcul3. Onpeut penser que l’indicateurConv sera correle avec le nombre de conflits potentiels, bien que laconvergence soit une propriete locale qui n’implique pasnecessairement l’apparition d’un conflit“au bout d’un certain temps”.

3Dans son code, F. Chatton considere que deux avions sont convergents si la distance a diminue entre les deuxderniers etats du simulateur. Il est bien plus pertinent deconsiderer la vitesse de rapprochement instantanee. C’estla methode de calcul adoptee dans cette etude.

Page 67: Methodes statistiques appliqu´ ees´ a la` complexite du

A. DETAIL DES INDICATEURS 45

En terme de complexite, l’indicateurDiv est sans doute assez peu pertinent : une paire d’avionsdivergents represente a priori peu de travail pour le controleur. Par contre, il est possible queDiv soit correle avec l’indicateurConv a un pas de temps anterieur (deux avions qui se seraientcroises divergent ensuite), et donc egalement avecConv en raison de la continuite du trafic.

A.3.3 La sensibilite

Il est clair que le nombre de conflits potentiels est une source de charge pour le controleur.Mais cette charge est a priori d’autant plus lourde que les conflits sont difficiles a resoudre, cettedifficulte pouvant etre raccordee a la sensibilite de la vitesse de convergence aux manoeuvresd’evitement possibles (changement de cap ou de vitesse). L’indicateur DOFI, introduit dans [13],essaie d’illustrer cette idee. Une autre approche est adoptee dans [14], ou deux familles d’indi-cateurs sont introduites. La premiere (Sd+ etSd−) se base sur la vitesse de rapprochement entreavions, tandis que la seconde (St+ et St−) s’appuie la notion (discutable, cf annexe de la note[12]) de “temps de conflit”. Dans cette etude, seuls les indicateurs appartenant a la premierefamille sont recalcules...

A.3.4 Les indicateursSd+ et Sd−

Les indicateursSd+ et Sd− definis dans [14] estiment la sensibilite de la vitesse de rappro-chement aux manoeuvres d’evitement. Il s’ecrivent

Sd−(i) =

N∑

j = 1j 6= i

1R− (vij) ‖−→∇vij‖f(dij) , (A.11)

Sd+(i) =

N∑

j = 1j 6= i

1R+ (vij) ‖−→∇vij‖f(dij) . (A.12)

ou le gradient4 est calcule sur les vitesses-solvi, vj et les caps (definis par rapport au nord)θi etθj .

A l’origine, ces indicateurs sont definis pour du trafic 2D (d’ou l’absence de composante dugradient en “taux de montee”), mais il y a un autre problemecache dans les definitions : en effet,s’il est normal de considerer ces variables, les regulations pouvant etre operees en cap comme envitesse (et en niveau de vol), toutes les composantes du gradient de la distance n’ont pas la memedimension, et leurs valeurs dependent du parametrage desvitesses (i.e. des unites dans lesquelleselles sont exprimees). Il faudrait au moins proceder a une normalisation.

4Dans [14], le gradient est ecrit sur la distance, mais c’estbien le gradient de la vitesse de rapprochement qui estcalcule, ce que l’on constate lorsque les formules sont developpees.

Page 68: Methodes statistiques appliqu´ ees´ a la` complexite du

46 A. DETAIL DES INDICATEURS

Une solution envisageable consiste a scinder chacun de cesindicateurs en trois indicateursportant respectivement sur les manoeuvres en vitesse (variablesvi et vj), en cap (variablesθi etθj) et en niveau de vol (et donc en vitesses verticales). On peutalors normaliser chacun de cesindicateurs suivant les methodes classiques. La table A.1presente les statistiques descriptivesdes indicateurs ainsi obtenus avant normalisation, et pourdes vitesses horizontales et verticalesexprimees respectivement enm/s et enft/min, et des caps exprimes en degres. Les ordres degrandeurs de ces indicateurs sont, comme on pouvait s’y attendre, tres differents, et le gradient“non-pondere” ne traduirait que la sensibilite en cap.

Indicateur Min. 1er Qu. Mediane Moyenne 3eme Qu. Max.

”sensi vg d” 0 0.019 0.423 0.955 1.34 15.5”sensihd d” 0 2.42 56.2 179 242 3297”sensi vz d” 0 0.002 0.066 0.161 0.223 2.93”sensi vg c” 0 0.026 0.46 1.00 1.36 23.8”sensihd c” 0 3.07 60.1 187 247 3362”sensi vz c” 0 0.003 0.074 0.176 0.238 4.22

TAB. A.1 – Statistiques descriptives pour les sensitivites “par composante”

Pour autant, la separation des composantes du gradient, sielle permet de tenir compte detoutes les manoeuvres possibles, ne traduit pas la difficulte “globale” de resolution. Quant a lamultiplication des indicateurs, elle rend plus delicate la selection des variables lors de regressions5,et augmente le caractere subjectif des conclusions d’une analyse en composantes principales(voir la section consacree a l’ACP dans la suite de cette note). Une somme ponderee des compo-santes du gradient peut donc representer une meilleure alternative que la scission de l’indicateur.Se pose alors la question des poids a utiliser, qui n’est passimple.

En l’absence de donnees facilement utilisables pour sugg´erer des poids pertinents, la so-lution adoptee dans cette note consiste a considerer l’amplitude “normale” des manoeuvresd’evitements. Les valeurs choisies sont :

– 3 points de mach pour les manoeuvres en vitesse (horizontale),– un taux de montee de 2000 ft/mn pour les manoeuvres verticales,– un changement de cap de 30˚.

Ponderees de cette maniere, les moyennes des indicateurs “sensivg d”, “sensi hd d” et “sensivz d”deviennent respectivement 12.35, 93.7 et 322. Ainsi, on voit que la composante liee a la vitessesol devient faible (relativement aux deux autres), mais quela difference d’ordre de grandeurentre les autres composantes s’est attenuee, au profit de la sensibilite en taux de montee. Ledesequilibre qui subsiste est relativement conforme auxsolutions adoptees en general par lescontroleurs (meme si la variabilite individuelle resteimportante), au sens ou les regulations envitesse sont assez peu utilisees (au moins pour l’“en route”). La preponderation de la sensibiliteen taux de montee sur la sensibilite en cap est plus discutable, et renvoie au choix relativement

5C’est d’autant plus le cas ici que les composantes des densites sont tres fortement correles : les termes diagonauxde la matrice de correlation des composantes de la sensibilite “divergente” sont 0.71, 0.75 et 0.87.

Page 69: Methodes statistiques appliqu´ ees´ a la` complexite du

A. DETAIL DES INDICATEURS 47

subjectif des poids. Au final, les indicateurs de sensibilite retenus “sensid” et “sensic” sont biencalcules a l’aide des gradients “ponderes”.

Ces indicateurs de sensibilite, notamment en convergence, presentent une caracteristique dejarelevee dans [14] : une situation convergente “tres sensible” est plus favorable qu’une situa-tion convergente “peu sensible”. Pour cette raison, une forte valeur de “sensic” ne traduira pasforcement une complexite tres importante : un conflit tr`es sensible, situation peu complexe, sem-blera, pour “sensic”, equivalent a plusieurs conflits peu sensibles, situation complexe. Il fautdonc interpreter “sensic” en tenant compte des autres indicateurs, et en particulier de “conv” (quirend compte du nombre conflits). On peut aussi definir un indicateur d’insensibilite en conver-gence (different de celui introduit en [14]), “insenc” (on definit ”insend” de facon similaire) :

”insen c” =Conv2

Sd+. (A.13)

Cet indicateur est croissant en “nombre de conflits” et en “insensibilite”, et devrait donc biendecrire l’aspect de la complexite pour lequel les indicateurs de sensibilites initiaux avaient eteintroduits dans [14].

La separation en deux groupes des avions convergents et divergents appelle la meme re-marque que celle formulee dans la section precedente : pour la complexite, les avions conver-gents semblent les plus interessants, meme s’il est possible d’observer une correlation entre lesindicateurs calcules sur les deux groupes d’avions.

Pour conclure sur les indicateurs inspires par [14], on peut remarquer que l’agregation desquantites calculees sur les couples d’avions se fait toujours par somme ponderee. Mais contrai-rement aux poids utilises dans [11], il n’y a pas dans [14] lesouci de decorreler l’indicateur finalet le (carre du) nombre d’avions actifs. Les deux approchespeuvent se justifier, et c’est la phasede validation des indicateurs qui doit decider de celle a retenir.

A.4 Les indicateurs “utilises” par RFM pour la PRU

Trois indicateurs ont ete calcules en s’inspirant des indicateurs utilises par RFM pour la PRU(note NT05-153). Les definitions initiales n’ont pas ete utilisees, pour une raison precise : lesindicateurs de complexite utilises pour S2D2 (et en gen´eral dans toutes les etudes autour de lacharge de travail du controleur) portent sur les avions geres par le controleur a l’instant considere.La dimension temporelle utilisee pour la PRU (en particulier les cellules sont “4D”) n’est paspertinente ici. Dans le cadre de S2D2, il aurait donc fallu considerer les analogues instantanesdes indicateurs decrits dans la note NT05-153, a savoir des indicateurs permettant de recalculer,par integration en temps, les indicateurs d’origine. Bienque (parfois) possible, cette approchen’a pas ete retenue dans cette etude. En effet, certainesquantites peuvent etre pertinentes pourcoller a la realite de la tarification du controle, mais nettement moins quand il s’agit d’evaluerla charge de travail des controleurs. Ainsi, la note NT05-153 considere les nautiques parcourus

Page 70: Methodes statistiques appliqu´ ees´ a la` complexite du

48 A. DETAIL DES INDICATEURS

(effectivement a la base de la formule des taxes de controle), dont l’analogue “instantane” est lasomme des vitesses des avions controles. Mais cette quantite est probablement, “a l’instant t”,moins pertinente pour le controleur que le nombre d’avionscontroles6.

Les indicateurs definis pour la PRU ont donc inspire les indicateurs suivants :– “inter hori” (adaptation de l’indicateur “interactions horizontales”) : pour un secteur et un

instant donnes, il s’agit du rapport du nombre de “croisements” (sans tenir compte du sensde l’avion sur sa trajectoire) horizontaux potentiels d’angle superieur a 20˚ sur le nombred’avions. C’est un indicateur “double”.

– “inter vert” (adaptation de l’indicateur “interactions verticales”) : pour un secteur et uninstant donnes, on classe les avions en palier/montee/descente pour obtenirn1, n2 et n3.L’indicateur (“simple”) est alors donne par

inter vert =(n1n2 + n2n3 + n1n3)

(n1 + n2 + n3). (A.14)

– “chgt niv” (adaptation de l’indicateur ”changements de niveaux”) : il s’agit de la vitesseverticale moyenne dans le secteur7. Il s’agit d’un indicateur “simple”.

A noter que l’indicateur “interhori” adapte de [15] est extremement correle (correlation de0.94) avec le nombre d’avions “n”. Le choix de l’angle de 20˚ choisi pour sa definition peut etremis en cause, car il ne selectionne pas assez les paires d’avions en “interaction horizontale”.Cette remarque n’est pas, a priori, valable pour [15] : en effet, meme si l’indicateurinstantanecalcule pour S2D2 s’inspire de celui introduit dans [15], il est finalement tres different.

Pour etre complet sur la note NT05-153, on remarquera qu’a l’echelle du secteur, l’analogueinstantane de la “densite ajustee” est simplement le nombre d’avions controles, qui est deja cal-cule par ailleurs. Enfin, deux indicateurs definis precedemment (variance des vitesses et ratioecart-type sur vitesse moyenne) decrivent l’heterog´eneite du trafic, qui apparaıt dans la note sousla forme de l’ecart-type des vitesses. Meme si ces quantites ne sont pas strictement identiques,elles sont tellement correlees que nous n’avons pas recalcule cet indicateur8.

A.5 Les indicateurs inspires de CREED

Les derniers indicateurs calcules pour le moment dans le module DD INDIC sont directementinspires du travail mene par P. Averty sur la perception des conflits par les controleurs aeriens[16]. Pour P. Averty, le controleur ramene tous les param`etres d’un conflit “potentiel” (les deuxavions consideres doivent etre en rapprochement horizontal et vertical, et non pas en rapproche-ment “elliptique” comme pour les indicateurs definis dans [14]) a des distances horizontales. Lesvariables qui decrivent le conflit sont alors

6Ce jugement est soutenu les resultats de [20].7La encore, au niveau du controleur, on regarderait plutot le nombre d’avions en evolution verticale. Cet indica-

teur etant deja calcule par la famille “varvit”, on a conserve ici la definition originale de la note NT05-153.8Cela etant dit, le calcul est immediat a partir de la variance des vitesses.

Page 71: Methodes statistiques appliqu´ ees´ a la` complexite du

A. DETAIL DES INDICATEURS 49

– “Ed” : la distance horizontale minimale entre les avions.– “Efl” : la distance horizontale au moment ou les avions sontsepares de 1000 pieds (apres

le croisement vertical).– “Da” : le “degre d’anticipation”, qui est la distance qui separe le plus rapide des avions du

point d’intersection (dans le plan) des trajectoires.Dans l’etude [16], l’auteur s’interesse a la perceptiondu risque de conflit. L’optique adoptee iciest un peu differente, puisque c’est la complexite du trafic que l’on cherche a modeliser. S’ilspeuvent orienter la definition de l’indicateur de complexite, les resultats de [17] (qui reprend labase de donnees de [16]) ne pourront donc directement etreutilises ici. En attendant ces resultats,on a defini dans cette etude differents indicateurs qui r´eutilisent la vision “plan” de [16] : l’ideeest que la complexite liee a un conflit potentiel est a priori grande lorsque les avions sont a la foisen convergence forte (donc “Ed” et “Efl” sont faibles), et qu’il reste peu de temps pour eviter leconflit (“DA” faible). Dans le pire des cas, si l’abordage estimminent, la complexite est infinie.D’ou la forme initialement imaginee pour S2D2 :

1

α Da + (1 − α)(β Ed + (1 − β) Efl), (A.15)

ouα etβ sont des parametres compris entre 0 et 1.

Cette definition appelle trois remarques :– Sous cette forme,β est a comparer au rapport des coefficients associes a “Ed”et “Efl” dans

le modele sans terme croise de [17]. Pour S2D2, on a decid´e par simplicite d’opter pour unβ constant et de le choisir arbitrairement. Par ailleurs, uneautre difficulte (qui fait l’objetde la seconde remarque) interdit la reutilisation fidele de l’“index” defini dans [17]. . .

– En implementant cet indicateur, on a constate une difficulte : les situations etudiees dans[16] (et reprises dans [17]), presentent des avions qui se croisent presque perpendiculaire-ment, et ces definitions ne posent pas de probleme. Si les angles sont faibles, le point decroisement peut etre situe en amont des trajectoires, et le degre d’anticipation est negatif.Les indicateurs definis ci-dessous sont alors mal definis.Finalement, dans la version ac-tuelle de DDINDIC, le degre d’anticipation a ete remplace par la plus grande distanced’un des avions au point de separation (horizontal) minimum, que l’on note ici “DaC”.Les quantites “Da” et “DaC” sont representees en annexe dans deux cas de conflits poten-tiels, dont l’un met en evidence le probleme souleve ci-dessus pour “Da”.

– Dans son etude, P. Averty a evite de presenter au contrˆoleur des couples d’avions pour leslesquels la separation verticale - de 1000 pieds - est post´erieure au “croisement” des deuxavions : ce cas est semble-t-il souvent juge trop dangereuxpar les controleurs, et est doncresolu des qu’il est identifie. Pour notre etude, il semble donc logique de traiter ce casseparement, afin de permettre qu’il se traduise par une plus grande charge de travail pourle controleur.

Sous cette forme,β est a comparer au rapport des coefficients associes a “Ed”et “Efl” dans lemodele sans terme croise de [17].

Les indicateurs de type ”CREED” reprennent donc les definitions donnees en (A.15) enremplacant “Da” par “DaC”. Ils sont ensuite agreges en sommant sur les conflits “bons” et “mau-

Page 72: Methodes statistiques appliqu´ ees´ a la` complexite du

50 A. DETAIL DES INDICATEURS

vais” (suivant qu’ils sont, ou non, du type presentes aux controleurs dans [16]). Dans DDINDIC,ces indicateurs (“doubles”) sont notes “creedbon” et “creedpb”.

Page 73: Methodes statistiques appliqu´ ees´ a la` complexite du

ANNEXE B

L ISTE DES ALGORITHMES

On a au prealable construit une liste des dates (date) et uneliste des noms de tous les secteurs(secteur).

B.1 Nom des secteurs possedant les troisetats

On cree le chemin desire a l’aide de la routinepaste. Une fois que c’est fait,file.accessverifiela presence des donnees. Si elle egale a0 la table est existante. Ensuite, on verifie que le secteurprend bien les trois etats, qui sont aux colonnes34, 35 et36, au cours de la journee observee.

> TroisEtats< −vector(“list”)> n=0> for(j in 1 :length(secteur)){> mysector< −data.frame()> for(i in 1 :length(date)){> x < −paste(“∼gianazza/ML/S2D2/INDICSKEVIN NF/Indics ”,date[i],sep=“”)> x < −paste(x,date[i],sep=“/S2D2”)> x < −paste(x,secteur[j],sep=“”)> x < −paste(x,“.ind”,sep=“”)> if(file.access(x) ==0)> temp< −read.table(x,col.names=col,header=T)> mysector< −rbind(mysector,temp)> }> }> if(all(any(mysector[,34] !=0),any(mysector[,35] !=0),any(mysector[,36] !=0))) {> n=n+1> TroisEtats[[n]]< −secteur[j]> }> }

Page 74: Methodes statistiques appliqu´ ees´ a la` complexite du

52 B. L ISTE DES ALGORITHMES

Pour finir, on construit une liste qui va posseder tous les secteurs a trois etats. Elle se nomme“Voir”.

B.2 Extraction d’un secteur au hasard parmi les secteurs quiont trois etats

On tire un echantillon grace a la routinesample.

> random< −sample(1 :length(Voir),1)> Voir.echant< −Voir[[random]]

B.3 Constitution d’un vecteur contenant l’etat du secteur

L’etat est presente dans la table par trois colonnes. Il prend sa valeur lorsqu’une des troiscolonnes est egale au chiffre1.

> y < −matrix(ncol=1,nrow=dim(Voir.echant)[1])> for(i in 1 :dim(Voir.echant)[1]) {> if(Voir.echant$groupe[i]==1) {y[i,1] < −1}> if(Voir.echant$arme[i]==1) {y[i,1] < −2}> if(Voir.echant$degroupe[i]==1) {y[i,1] < −3}> }

B.4 Realisation d’un echantillon de deux milles points parmitous les secteursa trois etats

On tire au hasard un secteur dans la table “Voir”, puis une ligne d’observation dans ce sec-teur. On cree une liste de paires avec le numero de la table et numero de la ligne. On verifie quechaque nouvelle paire tiree au sort est unique. Si c’est le cas, on insere l’observation dans unenouvelle table “Echant”.

> Echant< −data.frame()> l < −pairlist()> n < −0> while(n<2000){> j < −sample(1 :length(Voir),1)> i < −sample(1 :dim(Voir[[j]])[ 1],1)> paire< −pairlist(c(j,i))

Page 75: Methodes statistiques appliqu´ ees´ a la` complexite du

B. L ISTE DES ALGORITHMES 53

> l < −append(l,paire,after=length(l))> if(duplicated(l)[length(l)] !=TRUE){> n < −n+1> Echant< −rbind(Echant,Voir[[j]][i,])> }> }

B.5 Exemple d’utilisation de la methode “forward”

On realise une premiere regression avec l’hypothese nulle. Ensuite on construit un modele enajoutant les parametres les plus significatifs.

> naive< −polr(as.factor(y)∼1,method=“logistic”,data=Echant1.scale)> forward< −stepAIC(naive,scope=as.factor(y)∼vol + nb + nb2 + varv + nb des + nbmon +sqrt var sur moy + flux5 + flux15 + flux30 + flux60 + vprox1 + vprox 2 + hprox1 + densp +desang + desvit + div p + convp + sensid + sensic + insend + insenc + inter vert + chgtniv+ inter hori + creedbon + creedpb, direction=“forward”, trace=T)

B.6 Crit eres de selection du “bon” nombre de clusters

Cet algorithme pris dans [1] permet de calculer les differents criteres qui permettent deselectionner un “bon” nombre de clusters.

distance <- dist(medef2002, method = "euclidean") *dist(medef2002, method = "euclidean")

## Normalement, on a Y <- dim(medef2002)[1]/2

nbvar <- dim(medef2002)[2]taillemax <- 30nbiter <- 2000

SIL <- numeric(taillemax)B <- numeric(taillemax)W <- numeric(taillemax)CH <- numeric(taillemax)KL <- numeric(taillemax)DIFF <- numeric(taillemax)H <- numeric(taillemax)JUMP<- numeric(taillemax)

Page 76: Methodes statistiques appliqu´ ees´ a la` complexite du

54 B. L ISTE DES ALGORITHMES

asw <- numeric(nbiter)SIL[1]<- NACH[1] <- NAW[1] <- sum(diag(var(medef2002))) * (dim(medef2002)[1]-1)for (taille in 2:taillemax){

asw1 <- numeric(nbiter * taille * nbvar)dim(asw1) <- c(nbiter,taille,nbvar)for (k in 1:nbiter){

yop <- kmeans(medef2002,taille,100)asw[k] <- mean(yop $ within)yop1 <- yop $ centersdim(yop1)dim(asw1[k,,])asw1[k,,] <- yop1

}## calculs li es a la silhouette

km <- kmeans(medef2002,asw1[which.min(asw),,],50)sil <- silhouette(km\$cluster,distance)SIL[taille] <- mean(sil[,3])

## calculs li? au crit?e CH(k)W[taille] <- sum(km \$ within)B[taille] <- 0for (k in 1:taille){B[taille] <- B[taille] + km$size[k] * dist(rbind(km$centers[k,],

mean(medef2002)),method="euclidean")ˆ2}B[taille] <- B[taille]/dim(medef2002)[1]B[taille] <- B[taille]/dim(medef2002)[1]CH[taille] <- (dim(medef2002)[1]-taille) * B[taille]/((taille-1) *W[taille])

}## calculs li es a la variable DIFF(k) et JUMP(k)DIFF[1] <- NAJUMP[1] <- NAfor (taille in 2:taillemax){

DIFF[taille] <- (taille-1)ˆ(1/Y) * W[taille-1] - (taille-1)ˆ(1/Y) * W[taille]JUMP[taille] <- W[taille]ˆ(-Y)-W[taille-1]ˆ(-Y)

}## calculs li es aux crit eres KL(k), H(k)H[1] <- NAKL[1] <- NAfor (taille in 2:taillemax-1){

KL[taille] <- DIFF[taille]/DIFF[taille+1]

Page 77: Methodes statistiques appliqu´ ees´ a la` complexite du

B. L ISTE DES ALGORITHMES 55

H[taille] <- (dim(medef2002)[1]-taille-1) * (W[taille]/W[taille+1]-1)}H[taillemax] <- NA

Page 78: Methodes statistiques appliqu´ ees´ a la` complexite du
Page 79: Methodes statistiques appliqu´ ees´ a la` complexite du

ANNEXE C

EXEMPLE DE REPR ESENTATION DE

CLUSTER

Page 80: Methodes statistiques appliqu´ ees´ a la` complexite du

58 C. EXEMPLE DE REPRESENTATION DE CLUSTER

−4 −2 0 2 4 6

−6

−4

−2

02

CLUSPLOT( res.8 )

Component 1

Com

pone

nt 2

These two components explain 45.23 % of the point variability.

12

FIG. C.1 – Representation de deux clusters pour un secteur de 8 avions fixes

−5 0 5

−8

−6

−4

−2

02

4

CLUSPLOT( res.8 )

Component 1

Com

pone

nt 2

These two components explain 43.78 % of the point variability.

1 2

FIG. C.2 – Representation de deux clusters pour trois secteursa 8 avions fixes