Utilisation de méthodes de deep learning pour la mesure du ...€¦ · le marketing ou l’informatique : il se confronte aux enjeux du Big Data, du data mining, de l’analyse prédictive

1

Julia Pagès

Master Pro ILTS Option Industrie de la Langue 2016/2017

Université Paris Diderot

Utilisation de méthodes de deep learning pour la

mesure du redshift photométrique

Using DNNs for Photo-Z Estimation

Directrices de mémoire :

Geneviève Bordet (recherche documentaire)

Maria Zimina (terminologie et traduction)

2

3

Table des matières

1 Introduction ........................................................................................................................ 9

1.1 Le choix du micro-domaine ..................................................................................... 9

1.2 Le texte et l’auteur ................................................................................................. 13

2 Protocole de recherche documentaire .............................................................................. 14

2.1 Un micro-domaine en expansion ........................................................................... 14

2.2 Le parcours de la recherche ................................................................................... 20

2.2.1 Le cheminement ................................................................................................. 20

2.2.2 Les experts .......................................................................................................... 22

2.3 Le paysage documentaire ou la fouille de données : à la recherche de pépites ..... 25

2.3.1 Paysage documentaire en en anglais .................................................................. 27

2.3.2 Paysage documentaire en français ...................................................................... 32

2.4 Deux cosmographies ou un seul et même cosmos ? .............................................. 35

2.5 Bibliographie commentée ...................................................................................... 37

2.6 Présentation des corpus .......................................................................................... 39

2.7 Gestion des corpus ................................................................................................. 42

3 La recherche terminologique ............................................................................................ 45

3.1 Les termes du micro-domaine ................................................................................ 45

3.1.1 Tableau des termes retenus pour les fiches longues et de leurs équivalents ...... 48

3.1.2 Analyse du terme « photometric redshift » ........................................................ 49

3.1.2.1 Analyse du terme « redshift » ......................................................................... 49

3.1.2.1.1 L’importance de la notion de « filtre » ....................................................... 54

3.1.2.1.2 Analyse du terme « photometric redshift » ................................................. 57

3.1.3 Analyse du terme « deep learning » ................................................................... 59

3.1.3.1.1 La polysémie du terme « filtre » ................................................................. 66

4

3.1.4 L’écosystème des statistiques : la métaphore de la nature ................................. 68

3.1.5 La variation autour des adjectifs, la siglaison et les abréviations ...................... 71

3.1.6 La normalisation ................................................................................................. 73

3.2 Les arborescences .................................................................................................. 74

3.2.1 L’arborescence en anglais .................................................................................. 75

3.2.2 L’arborescence en français ................................................................................. 77

3.3 Les collocations génériques ................................................................................... 79

3.3.1 V + beyond the scope of this + N ....................................................................... 80

3.3.2 For + stg + the reader is referred to + N ............................................................. 81

3.3.3 N + has/have been shown to be + Adj ................................................................ 82

3.3.4 This + N + draws from + stg .............................................................................. 83

3.3.5 To propose a + premodifier + framework + for + N .......................................... 84

3.4 Conseils et pistes pour la poursuite du travail terminologique .............................. 85

3.5 Conclusion sur le mémoire de terminologie .......................................................... 87

4 Mémoire de traduction ..................................................................................................... 88

4.1 Toute traduction est-elle un commentaire ? ........................................................... 88

4.2 Les impératifs traductologiques de l’article ........................................................... 89

4.2.1 Premières lectures et question d’échelle ............................................................ 90

4.2.2 Retranscrire la temporalité ................................................................................. 91

4.2.3 Comprendre et reformuler les notions au cœur de l’article ................................ 93

4.2.4 Intégrer des connaissances extralinguistiques à notre traduction ....................... 95

4.2.5 Approche sémasiologique et utilité de la transposition .................................... 101

4.2.6 Déchiffrer les sigles et les groupes nominaux complexes ................................ 104

4.2.7 Gagner en clarté et en cohérence ...................................................................... 107

4.2.8 Versions envisagées pour le titre et décision finale ......................................... 109

4.3 Conclusion sur le mémoire de traduction ............................................................ 111

4.4 Traduction alignée ............................................................................................... 112

5

5 Annexes .......................................................................................................................... 159

5.1 Texte source intégral ............................................................................................ 159

5.2 Traduction ............................................................................................................ 166

5.3 Fiche WordSketch du terme redsfhit ................................................................... 177

5.3.1 V + beyond the scope of this + N ..................................................................... 178

5.3.2 For + N + the reader is referred to + N............................................................. 179

5.3.3 Première arborescence ...................................................................................... 181

5.3.4 Glossaire et fiches courtes ................................................................................ 183

5.3.5 Mails échangés avec l’auteur ........................................................................... 186

6

7

Remerciements

Je tiens à remercier Ben Hoyle, qui m’a donné l’autorisation de traduire son texte et a accepté

de répondre à mes questions.

Je remercie également Sylvain Bernard, Pascal Gatesoupe, Giovanni Palma, Stéphane

Jacquemoud, Yana Popova et Vivien Scottez pour avoir consacré du temps à mon travail et

partagé leur expertise.

Enfin, je remercie mes directrices de mémoire, Geneviève Bordet et Maria Zimina, pour leur

regard critique et leur bienveillance.

8

9

1 Introduction

1.1 Le choix du micro-domaine

J’ai toujours été sensible aux nouvelles technologies, un domaine où les avancées sont

significatives et constantes. Les sujets qui captent particulièrement mon attention gravitent

autour du web design, des jeux vidéo, de la réalité virtuelle, de la réalité augmentée et du

développement de l’intelligence artificielle. Je lis donc régulièrement des revues scientifiques

sur ces sujets. J’assiste également à des salons sur l’innovation dans le but de comprendre les

évolutions et l’influence de l’informatisation dans notre vie quotidienne.

En mars 2016, j’apprends la victoire d’AlphaGo sur Lee Sedol, l’un des meilleurs joueurs de

Go au monde. AlphaGo est une intelligence artificielle développée par DeepMind, entreprise

affiliée à Google et conçue spécifiquement pour jouer au jeu de Go. Depuis la fin des années

80, les ordinateurs sont capables de venir à bout des joueurs humains aux échecs. Mais établir

un modèle probabiliste capable de tenir compte de la multiplicité des mouvements possibles à

chaque tour d’une partie de Go représentait une frontière symbolique pour l’intelligence

artificielle. Cette victoire me fascine d’emblée, elle semble marquer un cap dans le

développement de l’intelligence artificielle. Est-ce l’amorce d’un saut technologique ? Doit-on

s’en inquiéter, s’en réjouir, ou tout simplement relativiser son importance ?

10

En terrain inconnu, je décide d’approfondir mes connaissances sur cette victoire. De

nombreuses sociétés s’intéressent aux technologies de l’I.A., comme les grands noms de

l’industrie du numérique : Google, Microsoft, Facebook. L’algorithme AlphaGo utilise les

technologies de deep learning et plus spécifiquement une architecture dénommée réseau de

neurones profonds (Deep Neural Networks, DNNs). Je commence alors à suivre les

publications mentionnant le terme deep learning, que je repère dans des contextes en lien avec

le marketing ou l’informatique : il se confronte aux enjeux du Big Data, du data mining, de

l’analyse prédictive, et entre en cooccurrence avec des néologismes et de nouvelles expressions

comme « resume mining », « économie de la connaissance augmentée », « Tech for Good » ou

encore du credo high-tech « In Code We Trust ».

Les semaines passent, et c’est dans le cadre de mon alternance au sein du service de traduction

de l’entreprise General Electric Healthcare, dans le domaine de l’imagerie médicale, que

j’expérimente de manière plus concrète le rôle prépondérant du deep learning dans la

reconnaissance d’images. Lors d’une formation sur les différents systèmes de radiographie,

j’apprends que les réseaux de neurones sont de plus en plus intégrés aux procédures liées à

l’imagerie, puisqu’ils sont capables d’identifier un élément spécifique dans une image. Ainsi,

ils facilitent la lecture des radiographies et constituent une aide pour les spécialistes. Ce sont

les prémices d’une collaboration homme-machine1 qui aura probablement un impact disruptif :

par exemple, certaines tâches des radiologues pourraient disparaître.

1 Pour citer le Dr. Mark Michalski, directeur exécutif du Massachusetts General Hospital et du Brigham and

Women’s Hospital Center : « Au lieu de développer des technologies d’intelligence artificielle en vase clos, nous

devrions plutôt les concevoir à la manière de l’aide aux patients : comme un continuum regroupant aussi bien les

soins préventifs que les états pathologiques ».

Source : http://newsroom.gehealthcare.com/the-team-behind-the-future-of-ai-in-healthcare/

“Instead of building AI solutions in isolation, we should think about the technology the way we are growing to

think about patient care – as a continuum, spanning care areas and disease states,” said Mark Michalski, MD,

Executive Director of the Massachusetts General Hospital and Brigham and Women’s Hospital Center for Clinical

Data Science.

http://newsroom.gehealthcare.com/the-team-behind-the-future-of-ai-in-healthcare/

11

En parallèle, à l’Université, l’intervention d’Elsa Sklavounou, linguiste et informaticienne au

sein de la société Systran, nous apporte de nombreuses informations sur les réseaux de neurones

dans le domaine de la traduction : grâce à eux, les machines apprennent à tenir compte de

différents contextes, des variations de termes, et surtout à optimiser et à propager les données

corrigées vers les sorties de la traduction automatique.

Figure 1 – Le point d'ironie, symbole du Festival des idées

Je participe également au Festival des idées2 où j’assiste à plusieurs conférences organisées sur

l’intelligence artificielle, traitant de la singularité technologique, du transhumanisme, et du lien

entre l’être et la machine dans la science-fiction, des enjeux qui suscitent beaucoup d’intérêt et

d’interrogations. Les réseaux de neurones sont employés dans de nombreux champs

d’application, comme la reconnaissance vocale, la robotique, les véhicules autonomes, la

finance, l’assurance, la vision artificielle. Au fil de mes lectures, je découvre que, depuis

quelques années, des applications concrètes du deep learning existent dans le domaine de

l’astronomie. Ils permettent par exemple de classer les images de galaxies en fonction de leur

2 Le Festival des Idées, Université Sorbonne Paris Cité, Sessions 13 minutes, INALCO, 2016, Être et machine :

- Ganascia, Jean-Gabriel, La singularité technologique, Laboratoire d’Informatique de Paris 6.

- Cristina Lindenmeyer, L’humain augmenté et ses symptômes, Dr. en Psychologie et maître de conférence

à Paris Diderot

- Grimaud, Emmanuel, Anthropologue, Commissaire de l’exposition Étrangement humain au Quai Branly

- Devillers, Laurence, Machine affective et robot compagnon, Université Paris Sorbonne 4

- Kyrou, Axel, Être et machine dans la science-fiction en 10 axiomes : une libre improvisation, 2016

- de la Rosière, Francois, Créateur de la Compagnie La machine

https://vimeo.com/album/4344364

https://vimeo.com/album/4344364/video/195934020

https://vimeo.com/album/4344364/video/195934669

12

morphologie. Passionnée d’astronomie, j’ai pu contempler les étoiles dans différentes

configurations célestes et expérimenter des phénomènes inoubliables, comme l’observation aux

aurores d’une éclipse lunaire dans le ciel du désert d’Atacama. L’idée d’approfondir mes

connaissances en astronomie tout en découvrant une méthode à la pointe de la technologie me

semble être une trajectoire passionnante.

Depuis le milieu du XXe siècle, l’informatique se développe à une vitesse exponentielle, et

aujourd’hui, les nouvelles technologies permettent d’étudier des champs de données de plus en

plus vastes et de les transformer en connaissances de plus en plus rapidement. En parcourant

des articles spécialisés traitant de galaxies lointaines et de phénomènes cosmologiques qui

m’étaient encore inconnus, je trouve mon sujet : la mesure photométrique du redshift grâce aux

réseaux de neurones. L’article de Ben Hoyle3 détaille une application récente de l’intelligence

artificielle qui pourrait permettre de traiter l’impressionnante quantité de données recueillie par

les derniers télescopes spatiaux et ainsi contribuer à améliorer notre connaissance de l’Univers.

Le cosmos a toujours captivé l’humanité, comme en témoignent les nombreuses mythologies

et représentations qu’elle a façonnées au fil des siècles. Depuis quelques années, nous avons

accès à un volume de données plus important sur l’Univers grâce aux nombreux relevés d’objets

astronomiques menés par les agences spatiales, que les astronomes et les cosmographes

s’appliquent à étudier pour mieux comprendre l’Univers dans son ensemble : son origine, sa

structure, son passé et son avenir. C’est donc le micro-domaine des technologies de deep

learning dédiées à la cosmographie que nous allons étudier dans ce mémoire.

3 Hoyle, Ben, Measuring photometric redshifts using galaxy images and Deep Neural Networks, Astronomy and Computing, Volume 16, July 2016, Pages 34-40, ISSN 2213-1337, http://dx.doi.org/10.1016/j.ascom.2016.03.006.

13

1.2 Le texte et l’auteur

Le texte que j’ai choisi s’intitule Measuring photometric redshifts using galaxy images and

Deep Neural Networks4. Il s’agit d’un article de recherche publié par Ben Hoyle en juillet 2016

dans la revue scientifique Astronomy and Computing.

Ben Hoyle est chercheur à l’Observatoire Wendelstein à l’Université Louis-et-Maximilien de

Munich. Il est spécialisé dans la mesure du redshift photométrique, la classification non

supervisée et l’analyse de données à grande échelle en cosmologie.

La revue Astronomy and Computing est une revue à comité de lecture de publication

internationale dédiée aux domaines de l’astronomie, de l’informatique et des technologies de

l’information.

L’article présente un nouveau système de mesure du redshift photométrique grâce aux réseaux

de neurones. Il s’adresse à trois types de spécialistes :

- les astronomes qui s’intéressent aux méthodes de deep learning ;

- les spécialistes du deep learning qui s’intéressent aux applications en astronomie ;

- et les spécialistes de ces deux domaines.

Certaines sections de l’article visent donc à transférer des connaissances à chacun de

ces profils.

4 Hoyle, Ben, Measuring photometric redshifts using galaxy images and Deep Neural Networks, Astronomy and Computing, Volume 16, July 2016, Pages 34-40, ISSN 2213-1337, http://dx.doi.org/10.1016/j.ascom.2016.03.006.

14

2 Protocole de recherche documentaire

2.1 Un micro-domaine en expansion

L’an 2000 marque le début du Sloan Digital Sky Survey5 (SDSS), un programme de relevé

d’objets célestes6 qui utilise un télescope optique situé à l'observatoire d'Apache Point, au

Nouveau-Mexique. En seulement quelques semaines, le nombre de données recueillies a

dépassé l’intégralité des données réunies dans l’histoire de l’astronomie. En 2010, la taille des

archives du programme s’élevait à 140 To. Pour avoir une idée de la progression exponentielle

qui s’amorce, le Large Synoptic Survey Telescope (LSST) devrait permettre de recueillir, dès

2019, grâce à son télescope situé au Chili, cette même quantité de données tous les cinq jours.

En août 2016, la NASA a rendu ses recherches scientifiques disponibles gratuitement sur la

base de données PubSpace7. Grâce à des innovations technologiques comme l’amélioration des

télescopes, la qualité et la complexité des données augmente de façon exponentielle. Pour la

première fois, les chercheurs ne sont pas en mesure d’analyser ce Big Data astronomique, tant

le volume des données est important. L’informatique et plus particulièrement le deep learning

ouvrent la voie à une nouvelle méthodologie pour analyser ces immenses bases de données.

L’informatique occupe une part de plus en plus importante en astronomie, la position des

télescopes peut dorénavant être contrôlée à distance et les astrophysiciens peuvent envoyer des

ordres d’observation par Internet. Prenons l’exemple du SDSS, l’utilisateur sélectionne la

région du ciel à observer et programme divers paramètres parmi une liste de données calibrées,

comme la magnitude absolue, la magnitude apparente, l’indice de couleur ou le rayon. Les

spectres et les images sont ensuite accessibles en ligne via une base de données Microsoft SQL

Server.

Lancé en 2007, le relevé astronomique collaboratif Galaxy Zoo8 propose aux astronomes

amateurs de contribuer à la classification de plus d’un million de galaxies : les internautes

5 http://www.sdss.org/ 6 Nous indiquons en gras les termes clés du domaine 7 https://www.ncbi.nlm.nih.gov/pmc/funder/nasa/ 8 https://www.galaxyzoo.org/

15

bénévoles peuvent donc enrichir les informations concernant les galaxies, comme leur type de

morphologie ou leurs particularités.

Au cœur de l’enjeu scientifique de ces relevés se trouve la question de la mesure des distances

en astronomie. La cosmographie consiste à déterminer la position et le mouvement des galaxies

dans l’Univers, en produisant des cartes dynamiques de l’espace qui nous entoure. Ces

connaissances scientifiques fondamentales façonnent notre représentation de l’Univers et du

paradigme dans lequel nous évoluons.

Redshift photométrique

De nombreuses méthodes permettent d’estimer les distances pour situer les galaxies : la

méthode des céphéides, les lois de Tully-Fisher et de Faber-Jackson, le principe cosmologique

et métrique FLRW, le redshift spectroscopique, et le redshift photométrique. Nous nous

intéresserons à cette dernière technique.

Le redshift est le phénomène astronomique correspondant au décalage spectral de la lumière

d’une galaxie vers les grandes longueurs d’onde9, c’est-à-dire vers le rouge sur le spectre

électromagnétique. C’est l’un des principaux indicateurs permettant de déterminer les distances

à l’échelle cosmologique. Dans les années 1920, Edwin Hubble découvrit que les galaxies

s’éloignent de nous à une vitesse directement proportionnelle à leur distance : ainsi, la relation

distance/redshift permet de déduire la distance de la galaxie.

Le décalage spectral peut être dû à l’effet Doppler, selon lequel la longueur des ondes

électromagnétiques sera plus courte pour un objet qui se rapproche et plus allongée lorsque

l’objet s’éloigne. Le phénomène de l’effet Doppler rend les ondes sonores des sirènes

d’ambulances plus aigües lorsqu’elles sont proches de nous (décalage vers le bleu) et plus

basses lorsqu’elles s’éloignent (décalage vers le rouge). Dans le cas du redshift cosmologique,

le décalage spectral est dû à l’expansion de l’Univers : à l’expansion de l’espace lui-même. Il

s’agit exclusivement d’un décalage vers le rouge.

9 Définition inspirée de Bentot, Sophie, Master 2 ILTS 2014-2015, Base Artes, UFR EILA, Université Paris Diderot Paris 7, PRES Sorbonne Paris Cité

16

La technique du redshift photométrique a été élaborée par Baum en 1962. Elle consiste à utiliser

un photomètre multi-bandes contenant de larges bandes spectrales dotées de filtres très

puissants afin de mesurer le flux de lumière reçu des galaxies. Il est ainsi possible d’effectuer

des observations photométriques pour des longueurs d’onde précises. Les filtres permettent

ainsi d’obtenir les couleurs de galaxies, d’extraire d’autres valeurs comme la magnitude, le

rayon, l’écart angulaire, et de produire des courbes spectrales à partir des différents filtres. C’est

grâce à l’étude de la distribution spectrale d’énergie, et à l’identification de ruptures spectrales

caractéristiques : par exemple lorsque la courbe révèle des accidents, des sauts, ou des creux,

qu’il est possible d’identifier la longueur d’onde. Parmi ces formes caractéristiques figurent le

saut de Lyman, le saut de Balmer, le saut à 4000 Anström, etc. Ces références permettent

d’estimer la distance de certaines galaxies.

Le deep learning

La photométrie peut être associée au deep learning (ou apprentissage profond) qui emploie une

famille d’algorithmes d’apprentissage automatique (machine learning), pour entraîner des

réseaux de neurones.

Le deep learning existe depuis 1986, mais depuis 2006 la recherche connaît des progrès

constants et rapides : elle est devenue l’un des principaux axes de recherche de l’intelligence

artificielle.

Cette méthode consiste à entraîner un réseau comprenant plusieurs couches internes dans

l’optique de construire une architecture hiérarchique : en élaborant une succession de

représentations, qui sont à chaque fois transmises à une nouvelle couche de neurones. Les

algorithmes permettent de propager les données de la couche d’entrée vers la couche de sortie.

Les modèles de deep learning sont inspirés directement du cerveau humain, et ont tenté de

reconstruire les réseaux et la structure d’un neurone : la morphologie générale d’un neurone

organique est constituée d’un corps cellulaire comprenant le noyau, le réseau d’entrées et

l’axone véhiculant l’influx nerveux en sortie ; les dendrites correspondent ainsi aux entrées du

neurone et l’axone à sa sortie.

17

Figure 2 : Schéma d’un réseau de neurones profonds10

De la même façon, un réseau de neurones artificiels sera constitué d’une couche d’entrée qui

reçoit les données initiales, de plusieurs couches internes cachées, et d’une couche de sortie.

La couche d’entrée n’a qu’une fonction : présenter les données à la couche suivante, toutes les

autres couches internes utiliseront en revanche des algorithmes pour propager les

informations aux couches suivantes. La rétropropagation de l’erreur permet de corriger les

poids synaptiques des neurones proportionnellement à l’erreur générée lors de

l’entraînement :

- Dans un premier temps, la sortie du réseau propage les données d’apprentissage de

l’entrée vers la sortie ;

- puis la différence entre la sortie désirée et la sortie obtenue définit l’erreur ;

- enfin, l’erreur est rétropropagée dans le réseau en sens inverse, afin de corriger les poids

synaptiques.

10 Nielsen, Michael, Neural Networks and Deep Learning, 2017, http://neuralnetworksanddeeplearning.com/chap6.html

http://neuralnetworksanddeeplearning.com/chap6.html

18

Figure 3 : Schéma du sens de propagation et de rétropropagation11

La procédure d’apprentissage s’effectue en ajustant les poids synaptiques et en propageant le

gradient de l’erreur (« l’algorithme du gradient » : le chemin, la pente, vers le point minimum

de l’erreur, soit le résultat le plus optimal) en sens inverse. Plus il y a de poids, plus il y aura de

connexions et de dimensions à prendre en compte, et plus il sera difficile de trouver le

minimum.

11 Fokou, Anicet, et al., The Marvin Project, Site web : http://themarvinproject.free.fr/final/node3.html

19

Figure 4 : Algorithme de gradient conjugué en trois dimensions12

Pour la reconnaissance d’images, les réseaux convolutifs sont les plus adaptés, ils permettent

de dédier des couches à l’apprentissage de prétraitements, afin d’extraire les caractéristiques de

l’image : par exemple, extraire les valeurs de magnitude, les indices de couleur d’une photo de

galaxie. La capacité particulière de ces réseaux est qu’ils peuvent transformer une

problématique en une série de petites étapes : ainsi la tâche de reconnaissance est subdivisée en

plusieurs petites tâches abstraites et conceptuelles. Un réseau plus classique peut ensuite

effectuer la tâche de régression, de classification : par exemple la reconnaissance d’image de

galaxie basée sur des critères morphologiques.

Dans l’approche du deep learning, les données sont essentielles : il faut privilégier le nombre

d’exemples dans le jeu de données d’apprentissage, plutôt que d’effectuer de multiples

prétraitements. Mieux vaut générer plusieurs images à partir d’une image donnée, par exemple

en effectuant des transformations par translation, rotation ou changement d’échelle, pour éviter

d’avoir à appliquer des prétraitements visant à repositionner l’image dans la position idéale.

Cette étape est celle de l’augmentation des données d’apprentissage.

12 Site web : National Instruments, Gradient conjugué - nD (VI), juin 2012

20

2.2 Le parcours de la recherche

2.2.1 Le cheminement

Le deep learning est un domaine vaste et technique, le premier enjeu allait donc être de délimiter

clairement mon sujet. Initialement, j’avais émis l’idée de travailler sur un texte de revue du

domaine13 qui avait pour avantage de présenter clairement le domaine du deep learning et ses

applications. Je suis partie sur cette base pour constituer un corpus à partir des références

mentionnées dans l’article. Des recherches documentaires pointues allaient être nécessaires

pour comprendre les enjeux du domaine. J’ai donc mené mes premières recherches sur le

moteur de recherche Google Scholar dans ses versions anglaise et française, et mis en place des

alertes pour le terme deep learning. Grâce aux abonnements en ligne de la bibliothèque Paris

Diderot aux plateformes ScienceDirect, à JSTOR, et aux nombreuses revues comme Nature et

le journal International Journal of Computer Vision, j’ai pu réunir de nombreux documents

assez rapidement. J’ai également trouvé de nombreuses thèses sur les sites Tel14, Hal15, le

portail theses.fr16. La lecture de ces diverses sources et variées – des articles de recherche, des

thèses, et la consultation des premiers livres de vulgarisation sur le deep learning, que je

détaillerai plus avant – m’a permis de réaliser les premières extractions terminologiques17 sur

la base de critères statistiques et de développer mes premières intuitions sur certains termes et

mots-clés du domaine : « deep neural networks », « machine learning », « pattern

recognition », « features », « computer vision ». Je commençais à assimiler certains concepts

centraux du domaine et je rentrais de plain-pied dans un domaine qui devenait toujours plus

technique dès qu’il trouvait un nouveau champ d’application. Une des difficultés a été devoir

sélectionner le texte le plus pertinent pour la traduction : j’avais retenu une dizaine de candidats-

textes dans divers domaines d’application, notamment un article (Karpathy, 2015)18 qui

présentait la capacité des réseaux de neurones à analyser une image et à produire une description

sémantique précise de celle-ci. J’ai longuement hésité avant de prendre une décision face à la

13 LeCun, Yan, et al., Deep learning, Nature 521, 436–444, 27 May 2015 14 https://tel.archives-ouvertes.fr 15 https://hal.archives-ouvertes.fr 16 http://theses.fr/ 17 En utilisant le logiciel Antconc et l’outil de gestion de corpus en ligne Sketch Engine 18 Karpathy, Andrej, et al., Deep Visual-Semantic Alignments for Generating Image Descriptions, Department of Computer Science, Stanford University, April 2015

http://www.laurenceanthony.net/software/antconc/

https://www.sketchengine.co.uk/

21

multiplicité des domaines d’application, qui me semblaient tous potentiellement intéressants

pour l’exercice. Parmi les champs d’application retenus, l’un d’entre eux était l’astronomie, un

sujet qui m’a toujours passionnée. J’ai alors affiné mes recherches en ajoutant de nouveaux

mots-clés : « astronomy », « cosmology », « cosmography ». J’ai ainsi trouvé l’article de Ben

Hoyle, qui présentait de nombreux enjeux tant au niveau de la compréhension des notions et

des techniques abordées que de la terminologie, et j’ai décidé de choisir ce texte pour ma

traduction. Le second élément déclencheur a été la lecture d’une interview19 de Françoise

Combes, astronome à l’Observatoire de Paris et membre de l’Académie des Sciences. Cet

article m’a beaucoup aidée à comprendre l’utilité des relevés d’objets astronomiques et le rôle

fondamental du machine learning en astronomie, cela m’a confortée dans mon choix pour le

texte et le domaine d’application. Un autre article (Zhang, 2015)20 m’a également fourni de

nombreuses références : des conférences, des noms de laboratoires et des pistes vers d’autres

relevés galactiques à étudier.

L’article que j’ai choisi se situe à l’intersection de trois domaines spécialisés. L’auteur emploie

donc un discours, une terminologie et une phraséologie qui sont caractéristiques de ce

microdomaine. Dans les domaines de la terminologie et de la traductologie, ce métalangage

n’est pas encore figé et de nombreux spécialistes adoptent des termes différents selon le cadre

théorique dans lequel ils s’inscrivent. Tout au long de ce mémoire, nous entendons par langue

de spécialité, un discours partagé par une communauté dans un domaine spécifique. Ce discours

est différent de celui de la langue générale. Toute langue de spécialité comporte un vocabulaire

spécialisé : la terminologie, mais aussi une phraséologie, des structures de discours spécifiques

et des tendances. La langue de spécialité (LSP) de notre microdomaine est la « somme » de

trois LSP : la LSP de l’astronomie (qui elle-même inclut celle des mathématiques et des

probabilités), la LSP du deep learning et la LSP de la photométrie. De surcroît, comme évoqué

dans la présentation (Section 1.2) du texte, l’objectif de certaines parties de l’article est de

transférer certaines informations aux spécialistes d’un autre domaine.

Ma méthodologie pour mieux comprendre les enjeux des trois domaines et me familiariser avec

leur terminologie reposait sur une double démarche :

19 Comment l’informatique a révolutionné l’astronomie, Le Monde, Interview Françoise Combes, septembre 2014 20 Zhang, Y. & Zhao, Y., (2015). Astronomy in the Big Data Era. Data Science Journal. 14, p.11. DOI: http://doi.org/10.5334/dsj-2015-011

http://binaire.blog.lemonde.fr/2014/09/01/francoise-combes-astronome-linformatique-a-revolutionne-lastronomie/

http://doi.org/10.5334/dsj-2015-011

22

- une approche systémique visant à réunir, parcourir et classer un maximum de textes sur

le deep learning (mon domaine central de départ) ;

- et une approche empirique visant à comprendre les notions fondamentales, en discutant

avec les experts du domaine que j’ai contactés (cf. section 2.2.1), en me rendant à la

bibliothèque en quête d’ouvrages de vulgarisation, et en assistant à des conférences en

lien avec le sujet.

Durant les six mois dont je disposais, j’ai ainsi pu recueillir beaucoup d’informations et de

textes réunissant les caractéristiques des LSP de ce domaine, tant au niveau de la transmission

d’informations que des représentations socioculturelles dans lesquels ils s’inscrivent.

Ces tâches m’ont permis de trouver les « briques de base » pour constituer deux corpus

représentatifs du domaine, qui me permettraient de valider en contexte mes intuitions

concernant les termes à étudier.

La difficulté suivante a été de construire l’arborescence, que j’envisageais uniquement sous

l’angle du deep learning. Certes, je souhaitais initialement me concentrer sur ce domaine, mais

l’article choisi évoque également des techniques de photométrie dont j’allais nécessairement

devoir étudier la terminologie. Le deep learning est inter et multi-disciplinaire : il prend racine

dans un champ d’application, mais il est souvent employé en combinaison avec des méthodes

hybrides comme des arbres de décision statistiques. Un quatrième axe venait donc s’ajouter à

mes recherches : le domaine statistique. Face à cette complexité, la structuration de

l’arborescence devenait de plus en plus difficile. En échangeant avec Madame Bordet, il

convenait de revoir l’arborescence en y plaçant l’article au centre : cela m’a permis d’aboutir à

une première arborescence. Sur cette base, j’ai pu commencer à conceptualiser le domaine,

même si cette première version d'arborescence allait ensuite connaître de nombreuses

évolutions (nous présenterons l’arborescence finale dans la section 3.2). Mais c’est ainsi que

j’ai pu affiner et redéfinir mon sujet.

2.2.2 Les experts

Les échanges avec les experts sont au cœur de mon parcours de recherche. Tout comme la partie

recherche documentaire, mon cheminement s’est fait en plusieurs étapes, au fil de ma

compréhension de chacun des domaines et des croisements et liens qui se tissaient entre eux.

Dès le départ, l’auteur du texte, Ben Hoyle, a accepté de tenir le rôle d’expert anglophone, ce

qui m’a permis d’éclaircir des points de compréhension et de terminologie.

23

Dans le cadre de mon alternance au sein de la société GE Healthcare, j’ai eu l’opportunité

d’échanger avec des spécialistes de l’imagerie médicale : Sylvain Bernard, Pascal

Gatesoupe, Giovanni Palma, et Yana Popova 21, qui connaissent ou utilisent des méthodes de

deep learning. Les entretiens qu’ils m’ont accordés m’ont permis de mieux appréhender les

enjeux de ce domaine et de saisir le terme feature et la notion de classement qui le relie au terme

feature importance. J’ai également pu vérifier certains points de compréhension de la section

dédiée aux réseaux de neurones, que j’aborderai dans le commentaire de traduction.

Dans un second temps, ayant travaillé l’an dernier sur un projet traductologique et

terminologique en partenariat avec des élèves de l’Institut de Physique du Globe de Paris, je

me suis tournée vers cet institut et j’ai contacté le Dr. Stéphane Jacquemoud22, expert en

télédétection et techniques spatiales, qui m’a aidée sur plusieurs points de reformulation de

certains passages de la traduction afin de gagner en précision scientifique.

Enfin, pour répondre aux dernières questions qui nécessitaient de mobiliser les connaissances

d’un expert des trois domaines : astronomie, photométrie et deep learning, j’ai contacté le

Dr. Vivien Scottez23, astrophysicien à l'Institut d'Astrophysique de Paris et spécialiste du

Clustering Redshift. Sa thèse : Clustering redshift : une nouvelle fenêtre sur l’univers24, figurait

dans mon corpus et c’est le document qui revenait statistiquement le plus souvent lorsque je

21 Sylvain Bernard, Project Leader, Engineering/Technology; HC IMG Detection & Guidance Solutions;

Healthcare Imaging

Pascal Gatesoupe; Principal Engineer, Engineering/Technology; HC IMG Detection & Guidance Solutions,

Healthcare Imaging

Giovanni Palma; Applications Engineer; Engineering/Technology; HC IMG Detection & Guidance Solutions;

Healthcare Imaging

Yana Popova, Senior Engineer, Engineering; Technology; Department HC IMG-Detection & Guidance Solutions;

Healthcare Imaging

22 Stéphane Jacquemoud, Chercheur et Professeur à l’Institut de physique du globe de Paris en Télédétection et

techniques spatiales.

24 Vivien Scottez et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015

24

cherchais des contextes pour m’aider à traduire le texte ou à tisser certains liens sémantiques

entre les termes. Il se trouve que c’est l’une des rares thèses traitant du microdomaine en

français. Lors d’un entretien, le Dr. Vivien Scottez m’a expliqué que les astrophysiciens doivent

maîtriser l’informatique car ces métiers vont désormais de pair. Sa thèse a été une vraie mine

d’informations dont j’évoquerai de nombreux exemples dans le mémoire terminologique. Il m’a

également donné de nouvelles pistes comme des références d’ouvrages et des liens vers des

MOOCS.

Pour conclure, j’ai assisté au salon Viva Technology25, un salon mondial dédié aux jeunes

pousses de l’innovation positive qui utilisent des méthodes d’intelligence artificielle et des

technologies high-tech. Plusieurs conférences ont attiré mon attention, notamment une

conférence autour de l’expression « Tech for good ». Derrière cette expression figurent les

concepts d’innovation sociale, la volonté d’avoir un impact environnemental et sociétal positif,

on parle d’« écosystème Health+Tech ». En somme, nous pourrions y voir une approche

biomimétique qui rejoindrait la vision de Mark Michalski26 cité plus haut, avec une réelle

volonté de comprendre ces nouveaux écosystèmes, que l’on commence à peine à défricher, tout

en restant dans un continuum. Nous élaborerons cette idée dans la section 3.1.4 en analysant

notamment les termes « random forest » et « decision tree ».

En ce qui concerne le deep learning, toujours durant le même salon dédié à la technologie,

l’intervenant Jean-Daniel Zucker27 confirme ce que m’avait indiqué le Dr. Scottez : dorénavant,

l’algorithmique fera partie intégrante de nombreux métiers où l’on ne s’attendrait pas du tout à

en trouver. Les outils sont si puissants que l’on parle même de l’amorce d’une « 3ème

Révolution Industrielle ». S’il existe beaucoup plus de MOOCS que de formations présentielles

25 https://vivatechnology.com/ 26 Mark Michalski, directeur exécutif du Massachusetts General Hospital et du Brigham and Women’s Hospital

Center : « Au lieu de développer des technologies d’intelligence artificielle en vase clos, nous devrions plutôt les

concevoir à la manière de l’aide aux patients : comme un continuum regroupant aussi bien les soins préventifs que

les états pathologiques ».

Source : http://newsroom.gehealthcare.com/the-team-behind-the-future-of-ai-in-healthcare/

27 Jean-Daniel Zucker, Directeur de recherche de 1ere classe à l’IRD, Institut de recherche pour le développement. Intervenant lors de la conférence, Les Spécialistes Datas Au Service De La 3ème Révolution Industrielle, Salon Viva Technology, 17 juin 2016

https://vivatechnology.com/

http://newsroom.gehealthcare.com/the-team-behind-the-future-of-ai-in-healthcare/

25

à l’université, c’est parce que l’offre des universités est insuffisante, face au nombre d’étudiants

souhaitant se spécialiser sur ces outils à la pointe de la technologie. Nous détaillerons ces points

dans le paysage documentaire.

2.3 Le paysage documentaire ou la fouille de données : à la

recherche de pépites

Au début de mes recherches, le domaine d’application n’était pas clairement défini, c’est

pourquoi j’ai recueilli des textes relevant d’un large éventail de sous-domaines (comme le

marketing, la bio-informatique, la médecine) pour créer un corpus anglais. Certes, l’application

que j’ai choisie au final : l’astronomie, s’éloigne de ces sous-domaines, mais il me semble que

ces textes ont toujours leur place dans mon corpus, puisque la LSP de ces documents reste bel

et bien celle du deep learning. J’ai créé différents sous-corpus en fonction de ces champs

d’application, en partant tout d’abord des mots-clés relevés dans les articles de revue dans un

premier temps, ou de mots-clés issus de l’article à traduire, que j’avais identifiés comme étant

intéressants pour ma traduction, comme le terme « feature ».

26

Dans un second temps, je me suis interrogée sur les acteurs du micro-domaine et j’ai fait une liste des différents axes à envisager par sous-domaine.

Voici la cartographie des acteurs du domaine et des ressources qu’elles proposent.

27

2.3.1 Paysage documentaire en en anglais

Deep Learning

Les universités, les laboratoires et les centres de recherche sont les principaux acteurs du

domaine, pour en citer quelques-unes : l'Université Carnegie-Mellon, Pennsylvanie, qui a une

unité d'enseignement et de recherche dédiée au machine learning ; le Massachusetts Institute of

Technology (MIT) ; le NYU Computer Science Department ; le Center for Statistics and

Machine Learning - Princeton University ; le département d’informatique de l’université de

Toronto.

Les publications d’articles scientifiques, d’articles de revue sont nombreuses dans le domaine

du machine learning, et beaucoup se spécialisent dans le deep learning. Parmi les nombreux

spécialistes du domaine, nous pouvons citer Yan LeCun28, Andrew Ng, Yoshua Bengio. Nous

trouvons de nombreuses thèses29 en anglais sur ce domaine en émergence.

Comme nous l’avons mentionné plus haut, les universités proposent de plus en plus de cours

en ligne, parmi les MOOCS les plus suivis figure celui de l'Université de Stanford, enseigné

par Andrew Ng, Professeur associé au Département de science informatique de l'université

Stanford et spécialiste du machine learning comptant une centaine de publications scientifiques

sur le sujet 30. J’ai suivi quelques cours d’introduction au domaine sur la plate-forme Coursera,

qui m’avaient été vivement recommandés par Vivien Scottez.

Les acteurs de l’industrie du high-tech comme par exemple les constructeurs de matériel

informatique abordent également le domaine sur leur site web, généralement dans un but

28 LeCun, Yan, et al., Deep learning, Nature 521, 436–444, 27 May 2015 Zhang, Y. & Zhao, Y., (2015). Astronomy in the Big Data Era. Data Science Journal. 14, p.11. DOI: http://doi.org/10.5334/dsj-2015-011 29 Par exemple : Du Buisson, Lise, Machine Learning in Astronomy, Department of Mathematics and Applied Mathematics, University of Cape Town, May 2015 30 https://www.coursera.org/learn/machine-learning

28

marketing visant à définir l’image de la marque, ou à présenter le catalogue de leurs produits.

Par exemple, j’ai trouvé le site de la société NVIDIA – un fournisseur de processeurs graphiques

et de cartes graphiques, entre autres – particulièrement intéressant puisque le site est traduit en

31 langues. Le constructeur a dédié une section entière au deep learning31. Un autre exemple

de site web intéressant est celui de la société britannique DeepMind, qui a été rachetée par

Google en 2014 et a développé le programme AlphaGo. L’approche de la société est à la fois

de développer des architectures d’intelligence artificielle les plus performantes possibles, et de

comprendre le fonctionnement du cerveau humain.

Les start-ups ou jeunes pousses sont également très visibles sur Internet. Multidisciplinaires,

elles s’intéressent à toutes les applications du deep learning mentionnées plus haut. Par

exemple, le site de la société BayLabs32 (cf. note de bas de page) qui se spécialise dans le secteur

de la santé. Ces sites web ont principalement des objectifs marketing de définition de leur image

de marque et de présentation des produits et des applications concrètes que les entreprises

proposent.

Enfin, les communautés technophiles sont très actives sur Internet : nous trouvons des forums

de passionnés, des pages personnelles, et de nombreux événements comme des salons : par

exemple, le Playfair AI Summit33, qui s’est tenu en juillet 2016 à Londres, et explore les

frontières de la recherche dans le domaine de l’intelligence artificielle ; ou encore des

conférences dédiées aux spécialistes telles que les conférences Neural Information Processing

Systems34 et Women in Machine Learning35. Ces conférences sont ouvertes aux acteurs de

l’industrie du high-tech, aux spécialistes du domaine, comme au grand public.

Enifn, un salon sur le deep learning s’est tenu en Chine en mars 2017, le “China’s National

Engineering Laboratory of Deep Learning Technology” sur le campus de la société

Baidu36 : une entreprise dédiée aux services sur Internet dont le moteur de recherche est le site

le plus consulté en Chine à l’heure actuelle et figure parmi les cinq sites les plus consultés au

niveau mondial.

31 Site de la société NVIDIA, section dédiée au deep learning : https://www.nvidia.co.uk/deep-learning-ai/ 32 Site de la société BayLabs: https://baylabs.io/ 33 Playfair AI Summit : https://playfairaisummit2016.splashthat.com/ 34 https://nips.cc/Conferences/2017/CallForWorkshops 35 http://wimlworkshop.org/ 36 http://research.baidu.com/

29

Astronomie

Les institutions : le site web de la NASA37, l'agence gouvernementale responsable de la

majeure partie du programme spatial civil des États-Unis a rendu ses recherches scientifiques

disponibles gratuitement sur la base de données PubSpace en 2016.

Les acteurs du domaine sont essentiellement des universités, des laboratoires et des centres

de recherche, dont voici quelques exemples :

- Aux Etats-Unis et au Canada :

Massachusetts Institute of Technology (MIT), Harvard University, Stanford University,

University of Cambridge, University of California, Berkeley (UCB), University of Oxford,

California Institute of Technology (Caltech), Princeton University, University of Tokyo, ETH

Zurich.

- En Europe :

Ludwig-Maximilians-Universität München, Technische Universität München (TU Munich),

KIT, Karlsruhe Institute of Technology, Imperial College London, University of Manchester.

- En Asie :

Peking University, Tsinghua University, Seoul National University.

- En Australie et en Nouvelle Zélande :

University of Melbourne, Australian National University.

- En Amérique Latine :

Universidade de São Paulo, Universidade Estadual de Campinas (Unicamp), Universidade

Federal do Rio de Janeiro, Pontificia Universidad Católica de Chile, Universidad Nacional

Autónoma de México.

- En Afrique et au Moyen-Orient :

Technion Israel Institute of Technology, King Abdullah University of Science & Technology,

University of Cape Town.

37 https://www.nasa.gov/

30

Leurs publications sont des articles scientifiques, des thèses. Des conférences se tiennent

régulièrement et sont souvent filmées et mises en ligne ; nous trouvons également des posters

de communication autour de ces conférences, ainsi que des MOOCS.

De nombreux livres sont également publiés sur le sujet, et peuvent s’adresser aussi bien au

grand public qu’aux passionnés ou aux spécialistes du domaine.

Les planétariums, les observatoires et les musées sont également des mines d’informations,

pour citer quelques exemples nous évoquerons le Hayden Planetarium à New York et le Samuel

Oschin Planetarium à Los Angeles. Ceux-ci disposent de pages web destinées au grand public,

de catalogues, de brochures, de posters, etc.

Les relevés astronomiques :

Voici une liste des principaux relevés astronomiques :

DPOSS (The Palomar Digital Sky Survey), 2MASS (The Two Micron All-Sky Survey), GBT

(Green Bank Telescope), GALEX (The Galaxy Evolution Explorer), SDSS (The Sloan Digital

Sky Survey), SkyMapper Southern Sky Survey, PanSTARRS (The Panoramic Survey

Telescope and Rapid Response System), LSST (The Large Synoptic Survey Telescope), SKA

(The Square Kilometer Array).

Sur Internet, nous trouvons de nombreuses communautés d’astronomes amateurs. Il s’agit

principalement de passionnés, qui participent sur des forums tels que : l'International

Astronomy Forum, le Stargazers Lounge. Certain(e)s astronomes partagent également leur

passion sur des pages personnelles, comme Nadieh Bremer38, qui aborde le domaine d’un point

de vue créatif axé sur la visualisation dynamique de données, participe régulièrement à des

conférences et partage ses expériences et ses projets sur son site.

Photométrie

Dans le domaine de la photométrie, nous trouvons des cours proposés par les universités,

comme par exemple : the University of Sidney, Photometry and Colorimetry Course. De

nombreux livres (Milone, 2011)39 (Romanishin, 2014)40 ont été publiés sur le sujet.

38 https://www.visualcinnamon.com/about 39 Milone, Eugene, Astronomical Photometry: Past, Present, and Future, Springer, 2011 40 Romanishin, W.,An Introduction to Astronomical Photometry Using CCDs, CreateSpace Independent Publishing Platform, 2014,

31

Les constructeurs d’accessoires pour télescopes sont également présents sur Internet : leurs

sites web sont dédiés à la vente et à la présentation de leur catalogue de produits : par exemple

celui de la société Optec41.

Parmi la communauté d’astronomes amateurs qui participent à des forums, certains ont des

questions ou un intérêt particulier pour la photométrie. Ainsi, nous trouvons des sections

dédiées à la photométrie en ajoutant l'étiquette "photometry"42 à l'International Astronomy

Forum. Cependant, nous relevons sur les forums une volonté de ne pas cloisonner les

techniques, comme en témoigne la contribution suivante : "My thoughts have always been more

along the line of renaming this forum to be more inclusive of all science techniques"43.

Astrostatistique

L'IAA (International Astrostatistics Association)44 est une association qui s’adresse aussi bien

aux astronomes, aux statisticiens, aux data scientists, qu’à toute personne ayant un intérêt pour

l’astrostatistique.

Le portail de l’université de Pennsylvanie dédiée à l’astrostatistique45 présente également de

nombreux liens vers d’autres associations et événements.

Et à l’intersection de tous ces domaines :

Au cœur de ces domaines, nous trouvons les universités qui proposent des cours de machine

learning dans le cursus d’astrophysique. Comme nous l’avons vu, de nombreux cours sont

dorénavant proposés en ligne, par exemple celui de l’Institut Max-Planck de radioastronomie

de Bonn : Machine Learning, the elegant way to extract information from data. Ainsi, les

PDFs46 et les vidéos47 de chacun des cours sont disponibles en ligne gratuitement.

http://www.physics.csbsju.edu/370/photometry/manuals/OU.edu_CCD_photometry_wrccd06.pdf 41 http://www.optecinc.com/astronomy/catalog/ssp/

42 http://www.astronomyforum.net/tags/photometry.html

43 Citation d’un internaute relevée sur le forum Cloudy Nights, Your astronomical community, https://www.cloudynights.com/topic/453598-spectroscopy-photometry-radio-astronomy-forum/ 44 http://iaa.mi.oa-brera.inaf.it 45 https://asaip.psu.edu/organizations/iaa 46 https://events.mpifr-bonn.mpg.de/indico/event/30/material/slides/ 47 https://events.mpifr-bonn.mpg.de/indico/event/30/material/1/

32

2.3.2 Paysage documentaire en français

Deep Learning

Les chercheurs travaillant au sein d’universités, de laboratoires et de centres de recherche

produisent essentiellement des documents en anglais, car c’est la lingua franca du domaine.

Cependant, Yan LeCun, chercheur français considéré comme l’un des pionniers du deep

learning, communique souvent dans sa langue maternelle lors de conférences. Sur le site du

Collège de France48 nous trouvons de nombreuses vidéos de cours en ligne issues de

conférences traitant du deep learning où il intervenait autour de questions pointues comme : les

réseaux multi-couches et la rétropropagation du gradient, l’apprentissage profond en pratique,

les réseaux convolutifs, etc. Ces vidéos sont bien sûr des sources très utiles aux traducteurs,

puisqu’elles nous fournissent un échantillon de cette LSP en français.

De nombreuses startups françaises emploient désormais les technologies du deep learning.

Lors du salon Viva Technology qui s’est tenu à Paris en juin 2017, la société française

Heuritech49 a remporté un prix pour son projet de logiciel capable de faire le lien entre les

réseaux sociaux et les e-commerçants. Nous constatons cependant que son site est en anglais.

Cette société offre également une solution logicielle d’analyse sémantique, de tagging et

classement automatiques de textes, images et vidéos sous forme d’APIs.

Astronomie

L’Agence spatiale européenne (souvent désignée sous son acronyme anglophone ESA pour

European Space Agency), coordonne les projets spatiaux menés par 24 États membres. Son site

diffuse de nombreuses informations sur les activités, les technologies, et les publications de

l’ESA.

De nombreuses publications scientifiques proviennent des universités, des laboratoires et

des centres de recherche. Parmi les institutions figurent l'Institut d'Astrophysique de Paris

48 https://www.college-de-france.fr/site/yann-lecun/course-2015-2016.htm 49 http://www2.heuritech.com/

33

(IAP)50, la communauté d’universités et d’établissements pluridisciplinaires de l'université

Paris-Saclay51, l’université Paris Diderot52.

Des vidéos d’introduction à la cosmologie53 sont disponibles sur YouTube, comme par exemple

le cours d’Etienne Klein de l’école CentraleSupélec. Des conférences données par des

spécialistes de la cosmologie ont également été mises en ligne sur le site de l’Académie des

sciences. Une vidéo nous a particulièrement intéressé puisqu’elle traitait de cosmographie, il

s’agit de l’intervention d’Hélène Courtois54 sur l’observation des grandes structures de

l’Univers est la cosmographie.

Enfin, le site « Fenêtre sur l’univers » est une formation en ligne55 introduisant à

l’astrophysique, qui présente l’avantage de disposer d’un glossaire en français.

Les sites de l’Observatoire de Paris56 et de l’Institut national des sciences de l'Univers (INSU)

du CNRS57 et le LESIA58 (Laboratoire d’études spatiales et d’instrumentation en

astrophysique) : un département de l’Observatoire de Paris qui est également une unité mixte

de recherche du CNRS, diffusent des connaissances ayant trait à l’astronomie : des articles de

recherche ou de vulgarisation, des informations sur les projets en cours, des actualités

institutionnelles, et les données pratiques sur les conférences et les ateliers ou écoles

thématiques. Le premier est entièrement traduit en anglais, ce qui permet de constituer un

corpus parallèle.

Dans le milieu associatif figurent la Société française d’astronomie & d’astrophysique59, la

SAF Société astronomique de France60, et l’AFA - Association française d'astronomie61,

chacune propose des lieux de rencontre pour approfondir ses connaissances en astronomie,

comme des commissions, des cours, des conférences. L’association Webastro anime un forum

50 http://www.iap.fr/ 51 https://www.universite-paris-saclay.fr/fr 52 https://www.univ-paris-diderot.fr/tags/astronomie 53 https://www.youtube.com/watch?v=VFyxniME8XA 54 Courtois Hélène, Observations des grandes structures : Laniakea, Académie des sciences, octobre 2016 55 http://media4.obspm.fr/public/FSU/ 56 https://www.obspm.fr/?lang=fr 57 http://www.insu.cnrs.fr/node/387 58 http://www.lesia.obspm.fr/-Catalogue-Publesia-.html 59 http://www.sf2a.eu/ 60 https://saf-astronomie.fr/ 61 www.afanet.fr

34

francophone qui réunit la communauté de l’astronomie : nous y trouvons des tutoriels et de

nombreuses informations. Enfin, le portail francophone dédié à la cosmologie62 sur Wikipedia

est également une bonne ressource d’informations.

Photométrie

Concernant la photométrie, nous trouvons plusieurs livres traitant de la technique en français,

ainsi que des publications scientifiques émises par des chercheurs.

La ressource terminologique la plus intéressante est un projet mené par une communauté

d’astronomes amateurs : il s’agit du projet Luxurion63, qui a pour but d’initier à l’astronomie

et comporte une section dédiée à la technique de la photométrie.

Astrostatistique

Le site de l’atelier Astrostatistique64 en France a vocation à réunir les astrophysiciens et les

statisticiens dans le cadre de projets collaboratifs, notamment l’organisation de conférences.

Un cours de statistiques65 plus général proposées par l'INSA Toulouse m'a permis de revoir des

notions de statistiques et de modélisation nécessaires à la compréhension du texte.

Et à l’intersection de tous ces domaines :

Au cœur de ces domaines, nous trouvons là aussi les universités avec de nombreuses

publications et ressources proposées en ligne, mais nous avons également relevé une forte

implication du milieu associatif.

Enfin, les bases de données terminologique et linguistique ARTES de l’Université Paris

Diderot, ainsi que Termium66 – gouvernement du Canada – se sont avérées être des points de

départ précieux pour la compréhension de certains termes, la rédaction de définitions et

l’établissement de liens sémantiques dans l’arborescence.

62 https://fr.wikipedia.org/wiki/Portail:Cosmologie 63 http://www.astrosurf.com/luxorion/photometrie.htm 64 https://astrostat.sciencesconf.org/ 65 Besse, et al., Apprentissage statistique, modélisation, prévision, data mining, Institut national des sciences appliquées de Toulouse (INSA Toulouse), https://www.math.univ-toulouse.fr/~besse/pub/Appren_stat.pdf 66 http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra

35

2.4 Deux cosmographies ou un seul et même cosmos ?

Appliqué à la cosmographie, le deep learning est à ce jour un micro domaine dont la production

de documents est beaucoup plus importante en langue anglaise qu’en français. Mais nous

n’avons envisagé que deux langues dans notre analyse du paysage documentaire : la sphère

anglophone et le monde francophone.

Il faut cependant souligner le nombre grandissant de publications chinoises : selon une étude

de l’Office of Science and Technology Policy (Bureau de la politique scientifique et

technologique), basée sur le nombre d’articles mentionnant les termes « deep learning » ou

« deep neural networks », la Chine serait la nation qui publie le plus d’articles de recherche

cités au moins une fois sur ce domaine à l’heure actuelle.

Figure 5 - Journaux et articles cités au moins une fois et mentionnant les termes « deep learning » ou « deep neural networks » par nation67

Cependant, une analyse plus approfondie serait nécessaire pour confirmer ce point, en effet le

système d’analysé présenté se focalise sur les critères suivants : le nombre de publications

mentionnant les termes « deep learning » ou « deep neural networks » et un critère qualitatif

sur la base d’une citation au minimum.

67 Source : Office of Science and Technology Policy, The White House, 2016

36

En français, nous trouvons quelques articles de recherche sur la photométrie appliquée à

l’astronomie, et une poignée de thèses qui n’ont pas vocation à être publiées et peuvent donc

plus être rédigées en français et ainsi s’affranchir de la norme. En revanche, les articles de

recherche émanant de la France sont presque toujours publiés en anglais (par exemple les

publications de Yan LeCun).

Enfin, nous dirions que s’il existait un collège invisible produisant de la connaissance dans le

domaine du deep learning appliqué à la cosmographie, il s’agirait probablement des nombreux

participants aux MOOCS et des internautes qui aident bénévolement à référencer les objets

astronomiques.

37

2.5 Bibliographie commentée

Dans ce vaste paysage documentaire, voici les sources que je retiendrais pour s’initier au micro-

domaine.

Quelques livres pour s’initier à la cosmologie :

- Le livre d’Hélène Courtois, Voyage sur les flots de galaxies68, est une excellente

introduction à la cosmographie : elle y partage son expérience d’astrophysicienne et le parcours

qui lui a permis de créer, en 2014, la première carte dynamique multidimensionnelle de

l’univers, et plus particulièrement du superamas auquel notre Voie lactée appartient : Laniakea.

- Françoise Combes, Astronome à l’Observatoire de Paris, a publié l’ouvrage Mystères

de la formation des galaxies 69, qui m’a également aidée à comprendre des concepts tels que

l’expansion de l’univers , la méthode photométrique et la distribution spectrale d’énergie.

- Le livre de Denis Savoie, Cosmographie70, décrit des notions essentielles de

mathématiques et de physique qui m’ont également été utiles lors de la traduction.

- L’ouvrage Cosmos71, de Stuart Lowe et Chris North, donne un aperçu visuel de

l’espace : chacune des double-pages offre un représentation visuelle élégante et originale qui

permet d’appréhender les notions d’échelle et de structure de l’Univers.

68 Courtois, Hélène, Voyage sur les flots de galaxies, Laniakea, notre nouvelle adresse dans l’univers, Dunod, 2016 69 Combes, Françoise, Mystères de la formation des galaxies, Dunod, 2008, 70 Savoie, Denis, Cosmographie, Belin, Bibilothèque scientifique, 2006 71 Lowe, Stuart et al., Cosmos, Découvrir l’espace en infographies, Vigot, 2016

38

Deux cours en ligne d’introduction au machine learning :

- L’introduction au machine learning72 présentée par Andrew Ng sur la plate-forme

Coursera. Ce cours, certes très technique, présente les notions centrales du domaine en

employant des analogies de la vie quotidienne.

- Les nombreuses conférences73 sur le deep learning présentées par Yan LeCun sur le site

du Collège de France, et pour commencer celle qui s’intitule : « Pourquoi

l'apprentissage profond ? ».

La vidéo d’une conférence sur la cosmographie :

- Nous l’avons déjà évoquée, il s’agit de la vidéo d’Hélène Courtois : Observations des

grandes structures : Laniakea74 est une excellente introduction à la cosmologie, après

un historique de cette science depuis les années 60, elle présente les grandes structures

de l’Univers et l’importance du mouvement et de la physique des galaxies dans la

cosmographie.

72 Ng, Andrew, Machine Learning Syllabus, Coursera, 2017, https://www.coursera.org/learn/machine-learning/#syllabus 73 LeCun, Yan, Pourquoi l’apprentissage profond, Vidéo de conférence, Collège de France, février 2016, https://www.college-de-france.fr/site/yann-lecun/course-2015-2016.htm 74 Courtois Hélène, Observations des grandes structures : Laniakea, Académie des sciences, octobre 2016

39

2.6 Présentation des corpus

Corpus anglais

Le corpus anglais contient 328 documents :

Nombre de mots dans le corpus anglais

Formes graphiques Occurrences

58 481 2 768 016

Les documents sont classés selon les champs d’application suivants : Big Data, cartography,

cognition, computational biology, cosmography, cosmology, education, feature importance,

informatics, machine learning, medicine, multi-modality, neurocomputing, photometry, policy

network, redshift, speech and sound, tutorials and slideshares, computer vision.

Voici la typologie des documents de mon corpus anglais :

40

Corpus français

Le corpus français contient 106 documents.

Nombre de mots dans le corpus français

Formes graphiques Occurrences

72 664 3 340 753

J’avais déjà choisi mon domaine d’application lorsque j’ai commencé à constituer mon corpus

français, ma démarche de classement était donc plus fine et j’ai regroupé les textes dans des

sous-domaines de l’astronomie ou des dossiers dédiés à des recherches terminologiques plus

précises : cosmographie, cosmologie, décalage vers le rouge, deep learning, photométrie.

Les documents du corpus français sont répartis comme suit :

41

Analyse comparative

Le corpus anglais est constitué à 79 % d’articles spécialisés émanant d’universités, de

laboratoires et de centres de recherche, contre seulement 33 % d’articles pour le corpus français.

Les publications françaises concernent en majorité le domaine de la photométrie et de

l’informatique : nous trouvons quelques publications concernant le deep learning et

l’astronomie mais qui restent minoritaires par rapport au nombre de publications en anglais, la

lingua franca du domaine.

Plus de la moitié de notre corpus français est constituée de manuels de cours, notamment des

chapitres dédiés au traitement d’images. Nous avons également inclus quelques ressources

éducatives en anglais mais elles ne représentent que 7 % du corpus anglais. En effet, la majorité

des MOOCS anglais sont au format vidéo, mais nous avons trouvé quelques supports de cours

extraits de présentations PowerPoint.

Dans les deux langues, très peu de thèses ont été menées sur le deep learning appliqué à la

cosmographie, ce qui confirme qu’il s’agit d’un microdomaine émergent.

42

2.7 Gestion des corpus

Ma méthode de travail sur les corpus a été la suivante : j’ai utilisé l’outil SketchEngine75 pour

la gestion des deux corpus. L’une des fonctions qui m’a été la plus utile est la génération de

fiches WordSketch (dont un exemple figure en annexe). J’ai nommé les fichiers d’un préfixe

(selon la typologie ci-dessous) suivi du titre du document et ajouté dans l’en-tête de chaque

document les métadonnées comme suit :

ARTI_ articles de recherche

ASSO_ publications d’association

COUR_ cours, manuels, posters

BOOK_ ebooks

GLOS_ glossaires

OBSE_ publications d’observatoire

REPT_ rapports, transcriptions de conférence

THES_ thèses

TUTO_ tutoriels et cours

WEBP_ sites web

Le classement préalable des fichiers dans des sous-dossiers me permet de connaître le sous

domaines auquel appartient un texte lors des recherches SketchEngine : il suffit de passer la

souris sur le nom du fichier pour voir l’intégralité du nom du chemin qui mène au document,

comme nous pouvons le voir dans la capture d’écran ci-dessous.

75 https://www.sketchengine.co.uk/

43

Figure 6 – Capture d’écran de l’outil SketchEngine

En parallèle, le logiciel Antconc76 permet de réaliser des recherches plus fines, sur un nombre

réduit de textes voire même un seul texte, puisque la majeure partie du temps, la thèse de Vivien

Scottez77 est le document en français qui m’a été le plus utile lors de la traduction. L’un des

avantages que présente Antconc est de pouvoir trier les concordances en appliquant un système

de changement de couleur, par exemple ci-dessous, pour le tri des voisins de gauche du terme

« filtre » :

Figure 7 - Concordances du terme « filtre » extraites avec le logiciel Antconc

76 http://www.laurenceanthony.net/software/antconc/ 77 Scottez Vivien et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015

44

Nous avons également utilisé le programme iTrameur78, pour créer un bi-texte comparable

(voir l’analyse du terme « redshift » dans la section 3.1.2.1) et générer des modélisations qui

nous ont permis de visualiser les liens sémantiques entre un terme et ses cooccurrents, comme

dans la figure ci-dessous :

Figure 8 – Modélisation du réseau des cooccurrents du terme « redshift » générée grâce à l’outil iTrameur

78 iTrameur : programme d’analyse pour l’analyse automatique statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation ; http://www.tal.univ-paris3.fr/trameur/

45

3 La recherche terminologique

3.1 Les termes du micro-domaine

Comme nous l’avons évoqué dans le protocole de recherche documentaire, la langue de

spécialité du microdomaine est constituée de trois LSP : celle du deep learning, celle de

l’astronomie (qui inclut la LSP des mathématiques, de l’astrostatistique), et celle de la

photométrie. Le traducteur doit donc être capable d’identifier et de s’approprier cette

terminologie. Plusieurs critères nous ont guidé dans la phase d’identification des dix termes

techniques spécialisés du microdomaine et de leurs équivalents.

Dans un premier temps, nous avons eu recours aux outils SketchEngine79 et TermoStat80 pour

faire des extractions terminologiques et générer des nuages de mots81. En nous basant sur des

données quantitatives, nous avons pu étudier les premières listes de candidats termes. Le critère

quantitatif rejoint ici le critère qualitatif puisque ces listes de termes sont générées en fonction

de la fréquence d’un terme dans une LSP par comparaison avec un corpus de référence de la

langue générale – comme par exemple des articles de journaux portant sur des sujets variés tirés

du quotidien français Le Monde, ou, en anglais, un corpus de langue générale comme celui du

British National Corpus82.

79 Site de SketchEngine, outil d’analyse de corpus : https://www.sketchengine.co.uk/ 80 Site de TermoStat : http://olst.ling.umontreal.ca/?page_id=91/lang-pref/en/ : outil d’extraction terminologique qui compare un corpus spécialisé à un corpus de la langue générale. 81 Il s'agit d'une représentation visuelle de mots-clés du domaine qui s'affichent dans une police de caractère d'autant plus grande qu'ils sont fréquents 82 British National Corpus, http://corpus.byu.edu/bnc/

http://olst.ling.umontreal.ca/?page_id=91/lang-pref/en/

46

Voici une première liste de termes extraits de l’article de Ben Hoyle à l’aide de l’outil

Termostat :

Figure 9 - Liste de termes extraits de l’article de Ben Hoyle à l’aide de l’outil Termostat

Pour mieux visualiser ces données, nous avons généré un nuage (TagCloud) des principaux

termes :

Figure 10 – Nuage de termes de l’article de Ben Hoyle généré à l’aide de l’outil Termostat

47

Nous avons appliqué la même méthode à la thèse de Viven Scottez en procédant d’abord à

l’extraction des termes :

Figure 11 - Liste de termes extraits de la thèse de Vivien Scottez à l’aide de l’outil Termostat

Puis à la génération d’un nuage des principaux termes :

Figure 12 - Nuage de termes de la thèse de Vivien Scottez généré à l’aide de l’outil Termostat

48

3.1.1 Tableau des termes retenus pour les fiches longues et

de leurs équivalents

Fiches longues en anglais Fiches longues en français convolutional neural network réseau de neurones à convolution Ce terme complexe apparaît 233 fois dans notre corpus anglais (fréquence : 64.86 par million), c’est donc le critère quantitatif qui a primé pour le choix de ce terme. cosmography cosmographie Dans le domaine de l’astronomie, il existe une nouvelle acception de ce terme, qui pourrait peut-être être considérée comme un néologisme. Il nous a semblé intéressant de l’étudier du point de vue terminologique, d’autant plus que le terme est au cœur de notre sujet de mémoire. curse of dimensionality fléau de la dimensionnalité Dans le domaine de l’informatique, nous avons relevé des phénomènes de prosodie sémantique négative autour du terme « dimensionality ». En poursuivant nos recherches, nous avons trouvé plusieurs occurrences de ce terme composé. En français, il existe plusieurs équivalents, ce qui nous a semblé intéressant. decision tree arbre de décision Cet outil est employé par l’auteur de l’article et apparaît 206 fois (fréquence : 57.34 par million), dans notre corpus, il était donc important de comprendre son fonctionnement et ses différents composants, nous l’avons donc retenu pour des raisons quantitatives et pour son utilité pour la traduction. deep learning apprentissage profond Il s’agit du domaine que nous souhaitions étudier dès le départ : ce terme a donc en quelque sorte façonné notre corpus. S’agissant d’un domaine émergent, de nombreux auteurs le mentionnent dans leurs publications : nous avons relevé 1832 occurrences dans notre corpus (fréquence 509.94 par million) . deep neural network réseau de neurones profonds C’est l’architecture d’intelligence artificielle employée par l’auteur de l’article, face à la multitude des équivalents que nous avons trouvés, il nous fallait étudier ce terme et son comportement pour bien le traduire. Il apparaît 252 fois dans notre corpus est 35 fois dans l’article de Ben Hoyle. feature caractéristique Ce terme semble être un terme de la langue générale facile à traduire, mais il constituait un problème traductologique majeur de l’article, que nous évoquerons en détail dans le mémoire de traduction. filter filtre C’est le critère quantitatif qui nous a mené à retenir ce terme qui apparaît 1825 fois (fréquence : 507.99 par million) dans notre corpus. performance performance Une fois encore, c’est le critère quantitatif qui a primé : le terme figure dans 2953 concordances du corpus anglais (fréquence : 821.98 par million), ce qui en fait un concept central du microdomaine. photometric redshift redshift photométrique Ce terme composé figure dans le titre de l’article : la mesure du redshift photométrique constitue l’enjeu majeur de l’article. L’étude de son comportement dans notre corpus était donc primordiale. Il apparaît 633 fois dans notre corpus (fréquence 176.20 par million) et nous commencerons ce mémoire de terminologie par une analyse détaillée de ce terme.

49

3.1.2 Analyse du terme « photometric redshift »

La finalité de l’article de Ben Hoyle est d’obtenir une mesure précise du redshift photométrique,

il était donc impératif d’étudier ce terme sous toutes ses facettes. En premier lieu, nous

constatons que le nom « redshift » est pré-modifié par l’adjectif « photometric ». Il fallait donc

commencer par comprendre le concept de « redshift ».

3.1.2.1 Analyse du terme « redshift »

Notre premier réflexe a été de consulter les bases de données spécialisées, et c’est sur la base

ARTES83 que nous avons trouvé une première définition spécialisée (Bentot, 2015)84 :

Pour valider cette définition, nous avons effectué une recherche de marqueurs définitoires dans

notre corpus afin de faire ressortir les liens sémantiques, et potentiellement des isonymes grâce

à des adjectifs pré-modifieurs, ou des hypéronymes.

L’expansion de l’Univers a été découverte en 1920, par Edwin Hubble, qui a remarqué que le décalage

spectral vers le rouge ou « redshift » des galaxies dans notre voisinage est proportionnel à leur distance.

Ce décalage vers le rouge est souvent interprété comme un effet Doppler, selon lequel la fréquence du

rayonnement émis par un objet qui s’éloigne (ou se rapproche) est plus basses (ou plus élevé) que sa

fréquence au repos.85

83 Base ARTES de l’Université Paris Diderot : https://artes.eila.univ-paris-diderot.fr/ 84 Bentot, Sophie - Master 2 ILTS 2014-2015, UFR EILA, Université Paris Diderot Paris 7, PRES Sorbonne Paris Cité (pour le domaine : Méthodes d'analyse spectrales. Méthodes d'analyse optiques. Méthodes basées sur la mesure de la diffraction de rayonnements ou de particules [CDU 2004]) 85 Combes, Françoise, Mystères de la formation des galaxies, Dunod, 2008,

50

À l’inverse, si l’astre s’éloigne de nous, les ondes sont dilatées, décalées vers le rouge ; c’est le redshift.86

Whether interpreted as recession velocity or a measure of the change in the scale factor (Bunn &

Hogg 2009), redshift is defined as the fractional increase in wavelength of the observed spectral energy

distribution (SED) z = Δλ/λ.87

Nous avons créé un bi-texte comparable grâce à l’outil iTrameur88 qui emploie des calculs

probabilistes, nous pouvons faire émerger les unités qui reviennent le plus fréquemment dans

un corpus comparable : entre le texte source et la thèse de Vivien Scottez. Cela nous a permis

d’analyser le terme « redshift » en contexte :

Nous avons ensuite cherché les cooccurrents du terme redshift dans le texte source : avec l’outil

iTrameur, nous avons généré les modélisations ci-dessous :

Figure 13 - Modélisation des cooccurrents du terme redshift générée à l’aide de l’outil iTrameur

86 Courtois, Hélène, Voyage sur les flots de galaxies, Laniakea, notre nouvelle adresse dans l’univers, Dunod, 2016 87 David W. Gerdes et al., Photometric Redshifts using Boosted Decision Trees, The Astrophysical Journal, Department of Physics, University of Michigan, 2010 88 iTrameur, Programme d’analyse textométrique de données ; http://www.tal.univ-paris3.fr/trameur/

51

Puis nous avons établi une fiche Word Sketch du nom « redshift » en utilisant l’outil

SketchEngine (Figure 22). Comme nous pouvons l’observer sur la modélisation ci-dessous, en

anglais, les pré-modifieurs les plus fréquents de notre corpus sont les adjectifs « photometric »

et « spectroscopic ». Il s’agit des deux techniques les plus employées pour la mesure du

redshift : ce sont donc des isonymes, que nous pourrions regrouper sous l’hyperonyme

« techniques de mesure du redshift ».

En français, nous avons suivi la même procédure pour générer les modélisations de

cooccurrents potentiels du terme « redshift » en français, et du terme « décalage » :

Figure 14 – Modélisation des cooccurrents du terme « redshift » générée à l’aide de l’outil iTrameur

Figure 15 – Modélisation des cooccurrents du terme « décalage » générée à l’aide de l’outil iTrameur

52

Nous observons que le terme « redshift » est souvent pré-modifié par des adjectifs de gradation,

qui s’accompagnent de la collocation : Préposition « at » + Adjectif + redshift pour indiquer la

situation du redshift sur l’échelle spectrale :

- adjectifs de gradation : at high(er) redshift(s), at low(er) redshift(s), at intermediate

redshift.

Ex: At higher redshift, the intrinsic clustering will drop and the magnification

bias will increase dramatically.

- ou d’adjectifs décrivant la précision de la mesure ou établissant une comparaison avec

d’autres mesures : accurate redshift, different redshift, similar redshift, true redshift,

secure redshift.

De nombreux termes composés ont été créés sur la base du terme « redshift » : il s’agit de termes

statistiques (redshift bin, redshift range, redshift distribution, redshift estimates), ou ayant trait

à la méthodologie astronomique (redshift surveys).

Concernant les collocations autour du terme redshift, nous trouvons de nombreux verbes en lien

avec :

- la mesure :

o to measure the redshift:

- le calcul :

o to estimate redshifts:

o to calculate the redshifts:

53

o to derive redshifts;

- ou l’observation, la déduction du redshift :

o to observe redshifts:

o to determine redshifts:

54

3.1.2.1.1 L’importance de la notion de « filtre »

Grâce aux recherches en corpus, nous avons déjà pu établir quelques liens sémantiques :

La photométrie est une façon de déterminer le redshift d’un objet à partir des mesures de sa magnitude

apparente à travers différents filtres.89

Ce premier contexte nous permet d’émettre l’hypothèse que la photométrie est une technique

qui emploie des filtres et qu’il existe un lien fonctionnel entre ces termes. Cela nous mène à

faire des recherches plus affinées sur SketchEngine et nous cherchons des occurrences du terme

« photometry » à proximité (concrètement : situés à une distance allant jusqu’à cinq termes) du

terme « filter ».

Nous obtenons plusieurs résultats, parmi lesquels un contexte nous a semblé riche en

informations.

When there are clouds in the sky, they block different amounts of light at different positions in the sky.

Some instruments can do photometry through two or more filters simultaneously. These instruments

involve some sort of optical element (usually a dichroic filter) which splits the light from the telescope

into two different beams based on the wavelengths of each photon, say one beam bluer than 500 nm

wavelength and the other redder than 500 nm, and feeds them to two different detectors.90

Nous comprenons donc que la technique de la photométrie équipe le télescope d’un photomètre

sur lequel est disposé un filtre qui affine la détection et la mesure des longueurs d’onde des

photons.

L’expert Viven Scottez nous confirme qu’en français : le terme « filtre » désigne l’objet en lui-

même (« Le filtre s’est cassé. »), sinon c’est le terme « bande spectrale » qui est employé. Le

filtre est donc bien un accessoire, un méronyme du terme « télescope », qui laisse uniquement

passer une partie du spectre : une gamme de longueur d’onde vers la « bande spectrale ».

89 Vivien Scottez et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015 90 W. Romanishin, An Introduction to Astronomical Photometry Using CCDs, University of Oklahoma, 2002

55

En faisant une recherche sur le site d’une entreprise91 dédiée à la vente de télescope et de leurs

accessoires, nous trouvons une image concrète de cet objet :

Figure 16 – Image d’un filtre, Source : site web de la société Optec92

Lors de la traduction, nous avons rencontré le terme « CCD ». Pour établir le lien sémantique

entre le terme « filtre » et « CCD », nous avons dû affiner nos recherches. C’est sur le site du

relevé astronomique SDSS que nous avons trouvé une photographie du photomètre grand

champ doté d’un CCD mentionné dans l’article de Ben Hoyle.

Figure 17 – Image du dispositif pour du SDSS93

91 "filter" site:optecinc.com 92 https://optecinc.com/astronomy/catalog/ifw/ifw_wheels.htm 93 Site du relevé astronomique SDSS : http://www.sdss.org/instruments/

56

Sur ce même site web, nous relevons également un contexte riche en connaissances incluant

des définitions (telle que celle du terme « drift scan mode ») et établissant plusieurs liens

sémantiques, dont celui qui nous intéresse, le lien entre le CCD et le filtre :

The SDSS’s imaging camera is now at the Smithsonian, but all the images it collected are available online.

The imaging camera collected photometric imaging data using an array of 30 SITe/Tektronix 2048

by 2048 pixel CCDs arranged in six columns of five CCDs each, aligned with the pixel columns of the

CCDs themselves. SDSS r, i, u, z, and g filters cover the respective rows of the array, in that order. The

survey operated the instrument in a drift scan mode: the camera slowly reads the CCDs while the

telescope moves along great circles on the sky so that images of objects move along the columns of the

CCDs at the same rate the CCDs are being read. As an image of an object moves along the column of the

CCDs, a CCD in each row collects data on that object. Therefore, the camera produces five images of

a given object, all from the same column of CCDs, one from each CCD in that column. It takes an object

54 seconds to move from the beginning of a CCD to the end, so the effective exposure time in each filter

is 54 seconds. Because there is some space between the rows of CCDs, it takes an image 71.7 seconds to

move from the beginning of one row to the next. Each row corresponds to a different filter, so each object

has one image in each filter, taken at 71.7 second intervals.

Nous émettons donc l’hypothèse que le CCD est constitué d’une multitude de capteurs

optiques dont le photomètre est équipé. Les filtres (ici : r, i, u, z, et g) sont ensuite disposés

sur les capteurs CCD.

Le programme du relevé astronomique permet ensuite au CCD de produire plusieurs images à

mesure que le télescope se déplace sur chaque région du ciel à explorer, en passant au travers

des différents filtres.

Cela nous permet d’établir les liens holonymes / méronymes des termes en lien avec le

télescope grand champ employé pour le relevé SDSS :

57

3.1.2.1.2 Analyse du terme « photometric redshift »

Une fois réunies ces connaissances essentielles à la compréhension de la technique du redshift

photométrique, nous avons cherché des contextes définitoires du terme :

On peut distinguer deux types d’approches permettant de mesurer le redshift photométrique : les

méthodes utilisant des modèles (ajustement de modèles, approche Bayesienne...) et les méthodes

empiriques de type « apprentissage automatique » (réseaux de neurones, forêts d’arbres

décisionnels...).94

Ce contexte nous permet de faire un premier schéma comprenant les liens hyperonymes /

hyponymes suivants :

Le micro-domaine est un domaine émergent où de nombreux termes équivalents existent pour

un même concept : cela peut être expliqué par des phénomènes de néonymie simultanés. Le

symbole Z est communément employé en astrophysique pour représenter le redshift. Au fil de

nos recherches, nous découvrons ce qui semble être une variante du terme

« photometric redshift » : le terme « photo-Z ». Nous contactons alors l’auteur du texte pour lui

demander s’il s’agit bien des mêmes concepts :

Julia Pagès : Concerning the term "photometric redshift", I have found the abbreviation

"photo-z" in my corpus and they seem to be synonyms that can be used in the same way,

or do you use them differently?

Ben Hoyle : Correct they are exact synonyms. You may also see p(z) and z-phot, z_phot,

phot_z

94 Vivien Scottez et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015

58

Il existe donc une variation terminologique autour de ces termes : essentiellement des

abréviations. L’existence de ces nombreux synonymes nous a d’ailleurs permis de réorienter

nos recherches documentaires vers de nouveaux textes pour le corpus.

En français, nous constatons le même phénomène : ces abréviations existent également. En ce

qui concerne la traduction du terme « photometric redshift », nous nous trouvons à un

embranchement vers trois approches différentes :

- Traduire chaque terme en français et adopter leur forme étendue : « décalage vers le

rouge photométrique » ;

- emprunter le terme « redshift » à l’anglais et traduire uniquement

l’adjectif « photométrique » ;

- employer des abréviations et parler de « photo-z », qui semble être l’une des

abréviations les plus fréquentes en français.

Nos échanges avec l’expert Vivien Scottez et sa traduction du terme en français dans sa thèse

en français nous ont mené à choisir la seconde option.

59

3.1.3 Analyse du terme « deep learning »

L’apparition du terme et l’existence d’une controverse

Le terme « neural networks » remonte aux années 1960 et aux premières recherches dans le

domaine. Le terme « deep learning » existait depuis plusieurs décennies dans d’autres

domaines, notamment dans l’éducation, mais ce n’est qu’en 1986 qu’il apparaît dans le domaine

de l’apprentissage automatique, dans un article publié par Rina Dechter95. Cependant l’article

n’abordait pas le sujet des réseaux de neurones.

Appliqué aux réseaux de neurones, le terme apparaît en l’an 2000 dans l’ouvrage Multi-Valued

and Universal Binary Neurons: Theory, Learning and Applications96. Mais de nombreuses

équipes de chercheurs employaient déjà le terme à l’oral depuis des décennies : les premiers

pionniers du deep learning ayant commencé leurs travaux dans les années 1960.

Le terme a ensuite été disséminé par le biais d’un article publié en 2007 par Geoffrey Hinton97 .

De nombreux spécialistes estiment que ce terme est le résultat d’enjeux marketing : il s’agirait

donc d’un « changement d’image », d’une volonté de renommer un domaine qui existait déjà.

En 2012, le deep learning devient réellement un « buzzword », suite au concours de

reconnaissance d’images Imagenet. Les buzzwords sont fréquents dans le discours marketing

et se propagent très rapidement sur Internet. Dans le vocabulaire de l’informatique, on trouve

par exemple des termes comme : e-learning, Big Data, ou encore le paradigme data-oriented,

object-oriented.

En marge de cette question, deux approches existent : une partie de la communauté soutient une

approche « biomimétique » et affirme qu’il faut s’inspirer des sciences cognitives, du

fonctionnement de la pensée et du cerveau humain, pour concevoir des architectures neuronales

artificielles. Mais une grande partie de la communauté scientifique se soulève contre une vision

95 Dechter, Rina, Leaning while Searching in Constraint-Satisfaction-Problems, Artificial Intelligence Center, Hughes Aircraft Company, Calabasas, California, and Cognitive Systems Laboratory, Computer Science Department, University of California, Los Angeles, 1986 96 Aizenberg, Igor et al., Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications, Springer, avril 2000 97 Hinton, Geoffrey, Learning multiple layers of representation, Department of Computer Science, University of Toronto, Trends in Cocnitive Sciences, Vol. 11 No. 10, Elsevier, 2007

60

de l’intelligence artificielle basée sur cette analogie. En effet, les dernières découvertes comme

la rétropropagation des données, s’éloignent de plus en plus des neurosciences humaines et ont

donné des résultats concluants.

Deux autres concurrents du terme qui figurent également dans les publications scientifiques

sont : « hierarchical learning » et « deep structured learning ». Il s’agit probablement de

tentatives de lissage sémantique visant à neutraliser les divergences d’opinion du domaine.

Les équivalents en français

En français, nous constatons une dichotomie similaire : dans les conférences données au

Collège de France, qui visent à introduire des non-spécialistes aux domaines, Yan LeCun parle

d’« apprentissage profond » et de « réseaux de neurones profonds ». Dans le corpus en français,

nous relevons également des occurrences concernant les termes « réseaux neuronaux » et

« réseaux profonds », dont voici quelques statistiques et concordances :

- « apprentissage profond » :

- « réseaux de neurones profonds » :

- « réseau neuronaux » :

61

- et « réseaux profonds » :

Mais après avoir échangé avec les experts de notre domaine, l’emprunt à l’anglais est d’usage :

« deep learning », « DNN », « Deep Neural Nets » :

- « deep learning » :

- « DNN » :

- « Deep Neural Networks » : une seule occurrence en français (qui présente et et

explicite le sigle DNN)

Appréhender le domaine du deep learning

Notre point de départ a été la base de données Termium. Nous avons constaté que deux entrées

existent pour le terme deep learning : la première dans le domaine de l’intelligence artificielle

et la seconde dans le domaine des méthodes pédagogiques et de la formation du personnel. Il

s’agit donc d’un terme polysémique, c’est-à-dire que sa forme linguistique correspond à plus

62

d’un concept98, et que son référent varie en fonction du domaine, puisque, comme nous l’avions

mentionné dans le bref historique du terme, il provient initialement du domaine de

l’enseignement.

Dans cette fiche, nous relevons des équivalents que nous avions déjà repérés dans notre corpus,

et un nouvel équivalent pour la traduction en français : « apprentissage en profondeur ». Ce

terme semble cependant apparaître essentiellement dans des publications canadiennes.

98 L’Homme, Marie-Claude, La terminologie : principes et techniques, Les Presses de l’Université de Montréal, 2015

63

Nous consultons notre corpus pour établir une liste des premiers collocats du terme « deep learning » :

En examinant quelques concordances du terme deep learning et du collocat representations,

nous relevons plusieurs hyponymes de représentations : feature representations, abstract

representations, data representations.

64

Nous y relevons plusieurs occurrences du mot composé abstract representations. Nous

recherchons ensuite une concordance du terme deep learning accompagné du terme abstract et

constatons qu’il existe un phénomène collocationnel entre ces termes :

Pour mieux comprendre le domaine du deep learning, nous recherchons des contextes riches en

connaissances dans notre corpus en cherchant les termes « approche » et « Deep Neural

Networks ».

Les approches récentes basées sur les réseaux de neurones profonds (Deep Neural Networks, DNN)

ont atteint des performances état-de-l’art pour de nombreuses tâches du traitement de l’audio et de

l’image. Le principal avantage de ces techniques est d’apprendre simultanément des caractéristiques

de représentations et des fonctions de classification. L’initialisation des caractéristiques de

représentations peut être effectuée sur de grands corpus de données génériques pas nécessairement liés

à la tâche cible pour plonger les données dans des espaces de représentations (dénommés embeddings

en anglais) qui pourront être ajustés à la tâche cible de façon jointe.

Nous pouvons donc établir les premiers liens sémantiques suivants :

65

Voici un autre contexte définitoire :

Furthermore, neural networks are flexible and can be adapted quickly for specific domains. These

features make neural networks ideal for problems with abundance of data and complex relationships.

The word “Deep” in Deep Learning is most commonly understood as referring to neural network

models having more than two layers. Most problems with natural data such as image recognition and

speech processing are tackled effectively with neural networks that are deep in terms of the number of

layers. There is also another way of seeing Deep Learning as a collection neural networks-based

algorithms that are able to learn features automatically from raw data, with limited human intervention.

Ce contexte définit bien l’acception de l’adjectif « deep » dans les architectures de réseaux de

neurones, qui vise à indiquer la présence de plus de deux couches. Ainsi la présence de plus de

deux couches est le critère sémantique qui le distingue des réseaux de neurones artificiels. Nous

constatons également que les réseaux de neurones sont basés sur des algorithmes et qu’il existe

un lien fonctionnel entre les couches et les algorithmes. Nous confirmons ce points en faisant

une recherche de ces deux termes, qui apparaissent fréquemment en cooccurrence dans notre

corpus :

Enfin le terme « features » semble être l’équivalent du terme « caractéristiques » qui

apparaissait dans le premier contexte français.

Les équivalents du terme

L’article de Ben Hoyle traite exclusivement de « deep neural networks » puis emploie le sigle

« DNNs » pour s’y référer.

Après avoir consulté les experts, il semble pertinent de présenter dans un premier temps le nom

du domaine en français : l’« apprentissage profond », suivi du terme anglais « deep learning »

entre parenthèses. Puis, en ce qui concerne les architectures, une solution peut être de

mentionner d’abord l’architecture en français : les réseaux de neurones profonds, puis de s’y

référer grâce au sigle DNN, qui sera explicité dans sa forme étendue en anglais. Une formulation

possible serait par exemple : « l'apprentissage profond, méthode basée sur les réseaux de

neurones profonds (Deep Neural Networks, DNN) ».

66

3.1.3.1.1 La polysémie du terme « filtre »

Nous retrouvons une nouvelle acception du terme « filtre », cette fois dans le domaine du deep

learning :

A typical qualitative way of comparing features extracted by a first layer of a deep architecture is by

looking at the “filters” learned by the model that is the linear weights in the input-to-first layer weight

matrix, represented in input space. This is particularly convenient when the inputs are images or

waveforms, which can be visualized.99

Nos recherches sur la base de données Termium nous mènent à la définition en français ci-

dessous :

Trois synonymes existent pour ce terme en anglais : filter, pattern matcher, match pattern. Nous

n’avons trouvé que le premier terme dans notre corpus anglais. Pour comprendre la notion, nous

avons cherché ses collocats les plus fréquents grâce à SketchEngine :

99 Bengio, Yoshua et al., Visualizing Higher-Layer Features of a Deep Network, Université de Montréal, Département d’informatique et recherché opérationnelle, 2009

67

L’un des premiers résultats que nous avons obtenus est le terme « filter bank », c’est en

parcourant les concordances que nous avons trouvé un contexte définitoire, qui retrace

également l’histoire du terme.

In order to systematically study variants of texture representations ϕ = ϕe ∘ ϕf , we break them into local

descriptor extraction ϕf followed by descriptor pooling ϕe. In this manner, different combinations of each

component can be evaluated. Common local descriptors include linear filters, local image patches, local

binary patterns, densely-extracted SIFT features, and many others. Since local descriptors are extracted

uniformly from the image, they can be seen as banks of (non-linear) filters; we therefore refer to them as

filter banks in honor of the pioneering works of Mallat (1989), Bovik et al. (1990), Freeman and Adelson

(1991), Leung and Malik (2001) and others where descriptors were the output of actual linear filters.

Cela nous a permis de rédiger la définition suivante, appliquée au domaine de la vision

artificielle :

Figure 18 – Définition du terme « filter bank » dans la base Artes

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4946812/#CR64




68

3.1.4 L’écosystème des statistiques : la métaphore de la

nature

En essayant de construire les premières arborescences en anglais, nous observons qu’il existe

une famille de termes statistiques qui partagent des traits sémantiques du domaine de la nature :

decision tree, prediction tree, random forest, branch, leaf. La métaphore de la nature et d’un

écosystème est sous-jacente. Dans le domaine des statistiques, elle met en relief l’analogie

d’embranchements et de ramifications qui mènent aux nombreux choix ou issues possibles.

En ce qui concerne le terme « decision trees », l’article de Ben Hoyle offre un contexte

définitoire où nous constatons qu’il s’agit d’une architecture d’apprentissage automatique

(machine learning architecture), qui serait donc l’hyperonyme, avec un objectif de classement

dans des « boîtes » :

Tree methods

Once a galaxy has been observed and its photometric properties measured, it can be placed along with

other galaxies into a high dimensional scatter diagram in which each dimension corresponds to a chosen

input feature. Decision trees are machine learning architectures which subdivide this high dimensional

space into high dimensional boxes.

69

Comme nous pouvons le voir dans les contextes riches en connaissances ci-dessous, nous

retrouvons les mêmes phénomènes en français : l’« arbre » (holonyme) est constitué non pas de

« branches » comme en anglais, mais de « nœuds » qui conduisent à des « feuilles » (deux

méronymes). Ils ont pour but de « classer » les éléments d’un « échantillon d’apprentissage »,

grâce à des « capacités de généralisation ».

La classification d’un nouvel exemple se fait par le parcours d’un chemin dans l’arbre en évaluant

l’exemple au niveau de chaque noeud jusqu’à ce qu’on atteigne une feuille dans l’arbre.

Si l’on construit un arbre de décision jusqu’à ce que chaque feuille de l’arbre contienne un seul individu,

il ne commet aucune erreur de classification sur l’échantillon d’apprentissage, mais il perdra ses

capacités de généralisation à d’autres échantillons.

Pour le terme « decision tree » | « arbre de décision », nous observons également des

collocations similaires dans les deux langues : to build a ~ | to construct a ~ | construire un ~ ;

to use a ~ | utiliser un ~. En revanche, nous n’avons pas observé d’équivalent de la collocation

« to grow a decision tree » : la formulation « faire pousser » un arbre de décision n’apparaît

qu’à de rares occasions sur des forums d’amateurs et entre guillemets.

to build a decision tree construire un arbre de décision The training steps are as follows: (1) to choose a subset of sampples using Bootstrap sampling methods, (2) to choose randomly M features from M ones for each node, (3) to construct a CART decision tree with the chosen samples by using GINI coefficient (Eq. (3)) as information gain (Quinlan, 1986), and (4) to build N CART decision trees until a RF is built.

Si l’on construit un arbre de décision jusqu’à ce que chaque feuille de l’arbre contienne un seul individu, il ne commet aucune erreur de classification sur l’échantillon d’apprentissage, mais il perdra ses capacités de généralisation à d’autres échantillons.

to use a decision tree utiliser un arbre de décision This also helps avoid overfitting which is likely to appear if only one decision tree is used.

Figure 6.7: Nombres de noeuds avant (en bleu) et après (en rouge) pruning pour chaque arbre de décision utilisé dans l’optimisation de l’algorithme de BDT dédiée à la recherche de boson W droit dans le canal 2-jet 2-tag.

to grow a decision tree Every decision tree is grown on an independently drawn bootstrap replica of input data and the prediction is computed by using the ensemble average.

to generate a decision tree

70

C4.5 is an algorithm used to generate a decision tree developed by Ross Quinlan [16-18].

to construct a decision tree

(2) to choose randomly M features from M ones for each node, (3) to construct a CART decision tree with the chosen samples by using GINI coefficient (Eq. (3)) as information gain (Quinlan, 1986), and (4) to build N CART decision trees until a RF is built.

Enfin, nous trouvons de nombreuses micro-définitions comme celle du concept

d’élagage|pruning, qui comme son nom l’indique, consiste à réduire la taille d’un arbre :

On parlera dans ce dernier cas de l’élagage d’un arbre de décision grâce à des algorithmes dits de

pruning.

On dira que T est un sous-arbre de T0 si T peut être obtenu en élaguant T0, c’est-à-dire en réduisant le

nombre de noeuds de T0.

71

3.1.5 La variation autour des adjectifs, la siglaison et les

abréviations

Dans ce domaine, nous trouvons un phénomène de variation autour des adjectifs pré-modifieurs

dont voici quelques exemples :

photometric

spectroscopic

cosmological

redshift

convolutional

deep

artificial

Long Short-Term Memory

neural network

Figure 19 – Extraction des adjectifs entrant en cooccurrence avec les termes « redshift » et « neural network » effectuée à l’aide de l’outil SketchEngine

Cet adjectif peut intervenir pour apporter une indication sur la technique employée pour l’étude

d’un phénomène, comme dans le cas du « photometric redshift » et du « spectroscopic

redshift ». À plus grande échelle, l’adjectif inscrit l’étude du terme dans le cadre théorique

envisagé par l’auteur, ainsi dans le cas du « redshift » : il faut distinguer le « cosmological

redshift » du « doppler redshift » qui ne sont pas les mêmes approches et ne se basent pas

nécessairement sur les mêmes modèles cosmologiques.

Dans le cas des réseaux de neurones, il s’agit de la classe des architectures d’intelligence

artificielle : les adjectifs entrent en cooccurrence avec leur hypéronyme pour créer une nouvelle

architecture.

Une autre caractéristique de ce microdomaine est la prédominance des abréviations et de la

siglaison. Dans les publications scientifiques, pour éviter les répétitions, les concepts récurrents,

tels que les noms d’architectures de réseaux de neurones, sont en général développés une fois

sous leur forme étendue puis repris sous leur forme siglée tout au long du texte. Les chercheurs

font également référence aux relevés astronomiques, tels que le Sloan Digital Sky Survey, en

utilisant un acronyme.

72

photometric redshift

spectroscopic redshift

Photo-Z, phot-z, z_phot

Spectro-z, z-spec,

spec(z)

convolutional neural network

deep neural network

artificial neural network

recurrent neural network

Long Short-Term Memory neural network

ConvNet, CNN, CNNs

DNN, DNNs

ANN, ANNs

RNN, RNNs

LSTM-NN

Charge couple device CCD

Dark Energy Survey

Palomar Digital Sky Survey

Two Micron All-Sky Survey

Green Bank Telescope

Galaxy Evolution Explorer

Sloan Digital Sky Survey

Panoramic Survey Telescope and Rapid Response System

Large Synoptic Survey Telescope

Square Kilometer Array

DES

DPOSS

2MASS

GBT

GALEX

SDSS

PanSTARRS

LSST

SKA Figure 20 – Liste non-exhaustive de sigles du micro-domaine

73

3.1.6 La normalisation

Une grande partie du travail terminologique consiste à établir des liens entre les termes. Un

autre objectif de la terminologie et de normaliser, c’est-à-dire de réglementer les termes pour

en faciliter la compréhension dans un domaine de spécialité. Nous nous sommes intéressés aux

définitions du terme « node » | « nœud ». Les acceptions de ce terme polysémique diffèrent

selon qu’il se situe dans une architecture de réseaux de neurones ou dans un arbre de décision.

Définitions du terme « node » | « nœud »

In a neural network Dans un réseau de neurone

An artificial neuron in a neural network, consisting of a small amount of local memory and processing power. The output from a processing element is fanned out and becomes the input to many other elements.

Unité élémentaire de traitement d'un réseau neuronal, ayant plusieurs entrées et une sortie, dont la valeur de sortie est une fonction non linéaire d'une combinaison de valeurs d'entrée, les coefficients de pondération de la combinaison étant ajustables. [ISO/IEC 2nd WD 2382-34: 1994 (E/F)].

In a decision tree Dans un arbre de décision

In a tree structure, a point from which subordinate items originate.

Dans une structure d'arbre, point à partir duquel partent des éléments subordonnés.

Figure 21 – Définition des termes « node » « nœud »100

Le terme a été normalisé par la norme ISO101 et par la CSA (Association canadienne de

normalisation). Ce sont des indicateurs d’un domaine en voie de structuration.

100 TERMIUM Plus®, banque de données terminologiques et linguistiques du gouvernement du Canada (http://www.btb.termiumplus.gc.ca) 101 [ISO/IEC 2nd WD 2382-34: 1994 (E/F)]

74

3.2 Les arborescences

Comme nous l’avons évoqué dans le protocole de recherche documentaire, la construction des

arborescences nous a semblé complexe en raison du grand nombre de domaines et des

différentes techniques qui s’y entrecroisent. Nous avons donc d’abord considéré une

arborescence où nous placions le texte au centre, pour avoir une vision globale des différents

enjeux. Cela nous a beaucoup aidé à structurer notre vision du domaine. Au fur et à mesure de

notre exploration de chacune des branches de l’arborescence, il nous a semblé pertinent de

présenter une arborescence sur plusieurs couches.

Nous avons d’abord construit l’arborescence en langue source : en anglais. Une fois les

équivalents trouvés en langue cible, nous avons procédé à la traduction en français.

LEGEND

termterm

holonym of

uses / makes

hyperonym of

goal / results in

measures / studies

decision tree

random forest

astrostatistics

high-dimensional

data

predictive power

branch node leaf

data augmentation

computing

machine learning

machine learning model

deep learning

reinforcement learning

deep neural network

image acquisition

input layer hidden layer node output layer

algorithm

training algorithm

learning algorithm

backpropagation algorithm

input data

data set

spectral band

observational effects

correction

sky subtraction flat fieldinginterstellar extinction

interstellar absorption

feature

angular extent

colour

magnitude

radii

telescope

photometry

charge coupled device

photometer

filter

astronomy

observational cosmology

galaxy data

galaxy image

cosmography


photometric survey

redshift survey

redshift measurement

method

blueshift

wavelength

photon energy loss

astronomical data

spectroscopic redshift

phenomenon

redshift

optimisation algorithm

stochastic gradient descent

algorithm

training data set

non-linear transformation

survey

spectroscopic survey

task

performance

statistical tool

residual vector

mean deviation

standard deviation

outlier rate

photometric residual

distribution

method

Deep Learning for Cosmography: Using DNNs for Photo-Z Estimation

supervised learning

unsupervised learning

image processing

classification

high dimensional box

hyperbox

box

bin

binning

training rounds

linear transformation


measurement

template method

empirical method

spectral template

reference frame optical spectrum

template fitting technique

spectral feature

spectral break

Bayesian approach

convolutional neural

network

neural network architecture

root node

leaf node

child node

sibling child node

receptive field

convolution

fully-connected

artificial neural network

feedforward neural network

spatial pooling

filter bank

transfer learning

curse of dimensionality

outlier

decision tree learning

classifier

limits

filter bank

catastrophic photo-z

galactic extinction

interstellar reddening

fiche longueterm

fiche courteterm

multibande

76

(Cette page est laissée blanche intentionnellement)

LEGEND

termeterme

holonyme de

utilise / emploie

hyperonyme de

objectif / résulte

mesure / étudie

arbre de décision

forêt d'arbres décisionnels

astrostatistiques

donnée haute dimension

pouvoir prédictif

branche noeud feuille

augmentation des données

informatique

apprentissage automatique

modèle d'apprentissage

automatique

apprentissage profond

apprentissage par

renforcement

réseau de neurones profonds

acquisition d'image

couche d'entrée couche cachée noeud couche de sortie

algorithme

algorithme d'entraînement

algorithme d'apprentissage

rétropropagation du gradient

donnée d'entrée

jeu de données

multibande bande spectrale

correction d'effets

observationnels

soustraction du ciel

correction de champ plats

extinction interstellaire

caractéristique

profil de brillance

exponentiel De Vaucouleurs

étendue angulaire

couleur

magnitude

rayon

télescope

photométrie

dispositif à transfert de

charge

photomètre

filtre

astronomie

cosmologie observationnelle

données de galaxie

image de galaxie

cosmographie

redshift photométrique

relevé photométrique

relevé de redshift

méthode de mesure du

redshift

blueshift

longueur d'onde

perte énergétique des

photons

données astronomiques

spectroscredshift

spectroscopiqueopic redshift

phénomène

redshift

algorithme d'optimisation

algorithme de descente de

gradient stochastique

jeu de données d'entraînement

transformation non-linéaire

relevé

relevé spectroscopique

tâche

performance

outil statistique

vecteur résiduel

écart moyen

écart type

valeur aberrante

distribution des résidus

photométriques

méthode

Utilisation de méthodes de deep learning pour la mesure du redshift photométrique

"apprentissage supervisé

"

apprentissage non supervisé

traitement d'image

classification

classifieur

boîte haute dimension

hyperboîte

boîte

classe

groupement des données par

classe

phases d'entraînement

transformation linéaire

mesure du redshift

photométrique

méthode utilisant des

modèles

méthode empirique

modèle spectral

cadre de référence

spectre optique

technique d'ajustement de

modèles

caractéristique spectrale

rupture spectrale

approche bayésienne

réseau de neurones à convolution

architecture de réseau de neurones

noeud racine

noeud de feuille

noeud enfant

noeud-frère

champ récepteur

convolution

entièrement connecté

réseau de neurones artificiels

réseau neuronal sans rétroaction

pooling spatial

banc de filtres

apprentissage par transfert

fléau de la dimensionnalité

observation aberrante

apprentissage par arbre de

décision

limites

banc de filtres

redshift photométrique catastrophique

absorption interstellaire

extinction galactique

fiche longueterme

fiche courteterme

78


79

3.3 Les collocations génériques

Les collocations génériques sont des unités linguistiques qui permettent d’identifier les

régularités d’un discours spécifique : ce sont des séquences de mots que nous retrouvons dans

un type de discours, comme par exemple les articles de recherche scientifique.

L’identification de ces associations de mots récurrentes permet d’inscrire une traduction dans

un type de discours. L’objectif est donc d’améliorer la prise en compte de toutes ces régularités

d’expression, de cette phraséologie, pour les retranscrire au mieux dans notre traduction.

Nous analyserons quelques collocations, que nous classerons en fonction de structures

grammaticales, pour ainsi tenter de faire émerger quelques motifs sous-jacents du langage de

spécialité de notre microdomaine.

Pour le choix des collocations génériques, notre méthodologie a consisté en une recherche

statistique des N-grams de mots (séquences de cinq mots qui entrent en cooccurrence) les plus

fréquents dans notre corpus en anglais grâce à l’outil SketchEngine. Nous avons ensuite analysé

les résultats textuels les plus significatifs et cherché des équivalents dans le corpus de la langue

cible.

80

3.3.1 V + beyond the scope of this + N

Cette collocation générique a pour but de délimiter le cadre des travaux de l’auteur : il s’agit de

préciser le sujet de son étude, de redéfinir son positionnement ou le contexte théorique dans

lequel s’inscrit et se limite son travail. Nous relevons plusieurs occurrences employant le verbe :

be|go + beyond the scope of this + something (book|paper|section|study).

• Although a detailed theoretical interpretation of this empirical relation goes beyond the

scope of this paper, in the following we discuss two possible qualitative interpretations.

• An introduction to statistical methods for experimentation is beyond the scope of this

book, but all researchers should be aware of relevant statistical principles, and be able

to judge when use of statistics is necessary for their work.

• It is, however, beyond the scope of this study to present strategies on how to optimise

catalogues for different science applications and how to quantify those improvements.

Un équivalent français de cette collocation trouvé dans notre corpus est :

GN + dépasse le cadre de ce.tte + N • Ces objets auront cependant des propriétés spectrales de surface (océans de lave, roches

fondues...) dont la modélisation dépasse le cadre de cette thèse.

• Un état de l’art des algorithmes mis en œuvre pour gérer cette complexité dépasse le

cadre de cette thèse.

• L’élaboration d’un critère ou d’un test statistique permettant de déterminer si l’on

devrait procéder à l’estimation de la distribution dépasse le cadre de ce mémoire et est

laissée ouverte à de futures recherches.

81

3.3.2 For + stg + the reader is referred to + N

Cette collocation générique annonce un point d’informations complémentaires, qui sera discuté

plus tard ou qui renvoie vers une autre source. Il s’agit d’évoquer d’autres points d’intérêt pour

l’étude, de recommander des lectures, ou bien de faire un renvoi bibliographique à une personne

ou à une œuvre connue.

• For a fuller description of the various catalogs on which the samples were based, the

reader is referred to the references below.

• For details on implementations of individual parameters, the reader is referred to the

documentation of openSMILE and to [20].

• For interpretation of the references to colour in this figure legend, the reader is

referred to the web version of this article.

Pour + qqch + le lecteur est invité à se référer à qqch | Le lecteur est invité à se référer à qqch + pour + qqch

• Dans le compte-rendu ci-présent, je donnerai quelques conclusions clefs de nos

recherches (pour plus de détails le lecteur est invité à se référer au chapitre 4 de ma

notice HDR).

• Le lecteur est invité à se référer au chapitre 2 pour la définition des termes techniques.

• Pour plus de précisions à ce sujet, le lecteur est invité à se référer au site internet du

Ministère de l'Ecologie et du Développement Durable (www.ecologie.gouv.fr).

82

3.3.3 N + has/have been shown to be + Adj

Cette collocation générique a pour fonction de présenter le résultat d’observations empiriques,

ou d’annoncer des conclusions.

• This template correction step has been shown to be a crucial ingredient in decreasing

the bias, the scatter, and the number of outliers in the redshift estimation.

• Deep learning has been shown to be very effective in integrating data from different

sources.

• At the core of the learning process is a novel incremental clustering algorithm, which

has been shown to be both fast and stable.

N + se sont avéré.e.s + Adj • Les performances du programme d’alignement géométrique utilisé dans la chaîne de

traitement classique d’Eros (4.5.1) se sont avérées insuffisantes (taux d’échec élevé, et

alignements insuffisamment précis faisant échouer la soustraction).

• Ces deux voies se sont avérées moins performantes [9] que celle exposée ici.

• La simulation et la synthèse du premier réseau se sont avérés impossibles avec les outils

habituels (Quartus) compte-tenu de sa taille.

83

3.3.4 This + N + draws from + stg

Cet exemple de collocation générique, extrait de l’article de Ben Hoyle, vise à retracer l’origine

d’un élément que l’auteur va présenter : par exemple les prémisses, les processus ou les

mécanismes de son travail. La tournure existe aussi à la voie passive.

• This method draws from the latest techniques and advances in machine learning, in

particular Deep Neural Networks.

• Another excellent source, which this section draws from is the most recent Ph.D. thesis

on the topic of deep learning for computer vision.

• In this work we develop and discuss methods drawn from machine learning, to

accurately estimate photometric redshift PDFs, which will meet both the future storage

demands of large surveys, and the precision demands for cosmological parameter

estimation.

Nous trouvons un équivalent français, qui existe également à la voix passive.

N + s’inspirer de.s + N • Dans cette section, nous abordons une règle qui s’inspire des travaux du

neurophysiologiste Donald Hebb

• Le problème se pose toujours comme la minimisation d’une fonction coût, mais, plutôt

que d’être basée sur un critère d’erreur quadratique (moindres carrés), celle-ci s’inspire

des travaux de Huber sur la recherche de modèles robustes et utilise des écarts absolus.

• Ces expériences, conduites en simulation et sur robot réel, sont fortement inspirées des

travaux de [Floreano and Mattiusi, 2001].

84

3.3.5 To propose a + premodifier + framework + for + N

Cette collocation générique présente les méthodes, les outils, les approches, les techniques.

• To address this issue, we propose a fully data-driven framework for parameter

estimation and model selection in KDSNs.

• In this paper, we propose a heterogeneous multi-task framework for human pose

estimation using a deep convolutional neural network (CNN).

• Raina et al. [41] proposed a GPU-based framework for massively parallelizing

unsupervised learning models including DBNs (in this paper, they refer the algorithms

to stacked RBMs) and sparse coding [21].

Un équivalent français où la préposition « pour » peut être située avant ou après le cadre :

N + proposer un cadre + Adj. post-modifieur + pour • Si les théories modélisant le cerveau comme machine prédictive permettent de proposer

un cadre unificateur pour de nombreux aspects de son fonctionnement, elles

nécessitent toutefois elles-mêmes l’introduction de variables ad-hoc, laissant ouverte la

question de la structure même des représentations apprises (Clark 2013) sur laquelle

nous reviendrons au chapitre 2.

• Dans le chapitre 2, nous avons développé l’hypothèse des sous-variétés pour proposer

un cadre théorique à l’apprentissage de concepts à partir d’informations brutes dans

des espaces de grande dimension.

• Ceci nous permet finalement de proposer un cadre théorique et numérique original

pour la résolution robuste de la stéréophotométrie.

85

3.4 Conseils et pistes pour la poursuite du travail

terminologique

Ce micro-domaine possède une terminologie riche et multidisciplinaire qui est encore en train

de se structurer, comme le démontrent les nombreux néologismes, la terminologie foisonnante,

la siglaison et les débuts de normalisation de certains termes du domaine.

Bien sûr, différentes méthodes peuvent être envisagées pour appréhender un nouveau domaine,

mais au terme de ce travail, disposer d’un corpus bilingue nous a semblé indispensable à nos

recherches. Le classement des différents documents dans des sous-dossiers nous a permis de

lancer des requêtes précises pour répondre à des questions terminologiques. L’utilisation des

différents outils, tous complémentaires, offre également la possibilité de travailler en parallèle

sur un grand corpus et de focaliser certaines recherches sur des sous-dossiers spécifiques dans

d’autres outils. La possibilité de fusionner les sous-corpus, de créer des bitextes, ou de générer

des modélisations à partir de certains termes ou N-grams permet également d’affiner les

recherches.

Le travail mené tout au long de l’année sur la constitution des fiches pour la base ARTES nous

a permis de mieux appréhender le domaine de spécialité et de comprendre ses enjeux

terminologiques. Nous avons pu définir les concepts centraux du domaine, et nous avons appris

à repérer le comportement de certains termes en contexte par le biais de l’étude des collocations.

Les collocations génériques sont également essentielles : pour que notre traduction s’inscrive

de la meilleure façon possible dans un type de discours, il est nécessaire de prendre en compte

les séquences de mots caractéristiques de la langue de spécialité de notre microdomaine. De ce

point de vue, la base de données ARTES est une ressource précieuse pour le traducteur, puisque

l’on y trouve déjà 2133102 collocations génériques dans de nombreuses combinaisons de

langues.

102 Dictionnaire ARTES d’aide à la rédaction de textes scientifiques, date de consultation juillet 2017 ; site : https://artes.eila.univ-paris-diderot.fr/

86

Enfin, contacter des experts dès que possible nous a semblé être un élément crucial qui nous a

permis de valider nos choix terminologiques, de suivre les nouvelles pistes qu’ils nous

recommandaient, et de nous familiariser avec les acteurs du domaine.

Pour de futures recherches terminologiques, nous recommandons le « clustering redshift », qui

représente une piste très intéressante. Par ailleurs, le JWST (James Webb Space Telescope), qui

succédera en 2018 au télescope spatial Hubble pour l'observation dans l'infrarouge est une autre

voie à explorer. Les quantités de données relevées par ce télescope seront astronomiques et le

nombre de publications scientifiques sur l’apprentissage automatique appliqué à la

cosmographie devrait augmenter de manière exponentielle.

87

3.5 Conclusion sur le mémoire de terminologie

Pour bien traduire un article scientifique, il est nécessaire de maîtriser les codes rédactionnels

de sa langue de spécialité. L’approche terminologique axée sur la constitution d’un corpus

spécialisé et l’élaboration d’un dictionnaire (la base ARTES103) comprenant l’étude

approfondie de termes spécifiques aux domaines est un moyen d’appréhender rapidement et de

manière efficace le domaine, tout en l’ancrant d’un point de vue pratique dans l’activité

traduisante, les termes faisant référence à des concepts au cœur de l’article.

L’enjeu central est donc d’aborder la traduction comme le continuum de cette quête de sens et

de fidélité à l’intention de l’auteur. Dans des domaines spécialisés, comme ceux que nous

traitons en traduction pragmatique, le travail de recherche documentaire préalable est impératif

et peut représenter un temps considérable. Pour comprendre les notions et faire face à l’opacité

d’un texte, l’approche systémique permet d’appréhender un domaine par rapport à d’autres.

Dans cette optique, le travail mené en terminologie permet de structurer les connaissances du

traducteur et les différents enjeux de la traduction. Le traducteur expérimente un cheminement,

appréhendant de mieux en mieux les notions au fil du temps pour réussir à tisser des liens entre

les éléments de sens du texte à plusieurs échelles : celle de l’unité de sens, de la phrase, du

paragraphe, de l’article, ou parfois une perspective de plein champ ouvrant à toutes les œuvres

de l’auteur.

L’utilisation des corpus et l’analyse des concordances permet au traducteur de faire des choix

traductologiques raisonnés en se basant sur des données empiriques, ce qui nous semble être un

atout considérable. Le traducteur bâtit son propre corpus dans un micro-domaine, ce qui lui

permet d’aller à l’essentiel : bien maîtriser les concepts et les termes du domaine tant du point

de vue de leurs définitions que de leurs collocations. Une fois ce travail de fond réalisé, le

traducteur peut se concentrer sur l’étude du discours et la réexpression et passer à l’étape de la

traduction.

103 Dictionnaire ARTES d’aide à la rédaction de textes scientifiques, site : https://artes.eila.univ-paris-diderot.fr/

88

4 Mémoire de traduction

4.1 Toute traduction est-elle un commentaire ?

Nous observons de nombreux parallèles entre le travail de traduction et celui du commentaire.

En effet, lors de l’élucidation progressive du texte, traduction et commentaire entrent en

résonnance : ces deux travaux vont de pair durant les phases d’analyse et de décryptage du texte

dans toutes ses dimensions. Face aux difficultés, l’approche systémique permet au traducteur

de prendre position et de s’affirmer dans une traduction, qui évoluera et connaîtra parfois

plusieurs versions, ouvrant de nouvelles perspectives, révélant de nouveaux paradigmes. C’est

cette approche empirique que nous avons tenté de retranscrire au fil de ce travail de

commentaire et dans notre traduction. Elle se focalise autour de l’effort de réexpression

d’éléments de sens d’une langue de spécialité d’un domaine émergent qui continue à se

structurer.

- Dans un premier temps, nous analyserons les impératifs traductologiques de l’article ;

- Dans une seconde partie, nous présenterons quelques stratégies de traduction employées

pour :

o retranscrire la temporalité ;

o comprendre et reformuler les notions au cœur de l’article ;

o intégrer des connaissances extralinguistiques à notre traduction ;

o adopter une approche sémasiologique ;

o déchiffrer les sigles et les groupes nominaux complexes ;

o gagner en clarté et en cohérence ;

o et nous ferons un bilan sur les multiples versions envisagées pour le titre et la

décision finale.

Nous aborderons chacune de ces stratégies de traduction de manière empirique, en synthétisant

la méthodologie employée pour l’exploration du corpus et l’interaction avec les experts. Ainsi

pour chaque question de traduction, nous analyserons plusieurs extraits alignés comme suit :

Le texte source en anglais dans

la première colonne

La première version de la

traduction dans la seconde

colonne

La traduction finale dans la

troisième colonne.

89

4.2 Les impératifs traductologiques de l’article

Comme nous l’avons mentionné dans l’introduction, cet article doit répondre à trois principaux

critères :

- Informer les astronomes qui, même s’ils utilisent dorénavant majoritairement

l’informatique, ne sont pas nécessairement au fait des dernières méthodes employant les

réseaux de neurones profonds ;

- transmettre des informations sur les applications en astronomie aux spécialistes du deep

learning : il y a ici un objectif d’éclaircissement des notions centrales nécessaires pour

avoir un aperçu des perspectives qu’offre le domaine ;

- et informer les spécialistes de ces deux domaines des méthodes à la pointe qui y ont été

développées.

Lors de la traduction, il est donc essentiel de garder ce triple objectif à l’esprit.

Le titre de l’article : Measuring photometric redshifts using galaxy images and Deep Neural

Networks, était l’un des premiers défis posés par cette traduction. Nous aborderons ce point en

dernier, puisqu’il regroupe les réponses à de nombreuses questions que nous nous sommes

posées tout au long de ce parcours de recherche.

90

4.2.1 Premières lectures et question d’échelle

La première question que nous nous sommes posée concerne l’échelle à prendre en compte pour la traduction. Faut-il se focaliser sur le terme, la

phrase, l’unité de sens, l’article dans sa globalité ? Devons-nous prendre en compte l’ensemble des publications de l’auteur pour traduire également

les résonnances qui pourraient se faire écho104 ?

Il nous semble difficile de nous lancer dans la traduction d’un texte d’un domaine si spécialisé sans disposer d’un socle de connaissances de base.

Nos premières lectures nous ont semblé très abstraites, mais c’est essentiellement en partant de termes sur lesquels nos yeux s’attardaient – peut-

être par esthétisme, peut-être pour des perspectives créatrices qu’ils nous évoquaient – que nous avons commencé nos recherches, naviguant

d’article en article, jusqu’à lire l’intégralité des publications de l’auteur de l’article afin d’en appréhender non pas chacun des aspects scientifiques

mais d’avoir une première intuition abstraite et conceptuelle de la manière dont communiquent les experts de ce domaine.

Pour ce commentaire, nous tenterons de faire des découpes du texte permettant d’illustrer quelques stratégies de traduction employées, mais il nous

semble essentiel d’envisager toutes ces « unités » de traduction comme un continuum.

104 Nous faisons ici référence à l’une des questions centrales du colloque international : Des unités de traduction à l’unité de la traduction, première partie, Université Paris Diderot, 7 juillet 2017

91

4.2.2 Retranscrire la temporalité

La lecture d’un commentaire de Claude Vigée, extrait de la revue Palimpsestes, De la traduction comme commentaire au commentaire de

traduction105, nous a fait considérer les perspectives qu’un changement de temps peut influer sur un texte :

Dans tous les cas, le commentaire « actualise » des potentialités inscrites dans le texte qu’il commente car ce texte n’est jamais définitif. Claude Vigée, poète et

traducteur, explique que sa traduction, dans l’un des poèmes évoqués, d’un indicatif par un conditionnel (« history may be freedom » / « L’histoire pourrait être

liberté ») est bien un commentaire personnel visant à introduire l’avenir, la possibilité de choix, l’ouverture, de préférence à l’idée de destin qu’un peut aurait rendue.

The further away the galaxy is from us, the

longer the light has been passing through the

expanding Universe, and the more it becomes

redshifted.

Plus une galaxie est loin de nous, plus sa

lumière traverse l'univers en expansion et se

décale vers le rouge.

Plus une galaxie est lointaine, plus la lumière

qu’elle émet aura traversé l'univers en

expansion et se sera décalée vers le rouge.

105 Boisseau, Marivonne, De la traduction comme commentaire au commentaire de traduction, Palimpsestes, Numéro 20, 2007

92

Dans cet extrait, nous relevons d’une part en anglais, l’emploi du present perfect continuous : “the light has been passing through” dont l’usage

dénote que l’action : le voyage de la lumière, a commencé dans un passé très lointain, continue dans le présent et, de surcroît, dans un univers en

expansion, ce voyage est potentiellement infini.

D’autre part, nous avons observé dans notre corpus qu’en anglais, le terme « redshift » peut être employé sous la forme verbale : to be|to become

redshifted. Il s’articule donc avec des verbes de procès relationnel, en adjectivisant le nom « redshift » en « redshifted ».

Comment traduire cet effet en français et quel temps choisir ? Deux approches traductologiques émergent :

- Soit l’emploi exclusif du présent, que nous avons relevé dans un contexte comparable : Plus une galaxie est lointaine, plus la lumière

qu'elle émet est étirée et déplacée vers l'extrémité du spectre lumineux : vers le rouge.

- soit l’emploi du présent puis du futur antérieur pour exprimer un bilan : Plus une galaxie est lointaine, plus la lumière qu’elle émet

aura traversé l'Univers en expansion et se sera décalée vers le rouge.

La mesure du phénomène de redshift est intrinsèquement liée à la relation à la distance et au temps. L’enjeu est donc de représenter ce voyage de

la lumière à travers l’Univers et le temps, mais jusqu’aux détecteurs comme mentionné un peu plus tôt dans l'article106, donc à un moment donné

précis. Notre positionnement porte donc sur la seconde option, qui dénote l’idée d’un bilan, d’un résultat, dont découle la mesure du redshift.

106 Extrait de l’introduction : […] The distances to galaxies are inferred by the distance-redshift relation which relates how the galaxy light is stretched due to the expansion of the Universe as it travels from the galaxy to our detectors. […]

93

4.2.3 Comprendre et reformuler les notions au cœur de l’article

One can view this new approach as the most

extreme form of feature importance possible

(Hoyle et al., 2015). Feature importance ranks

the chosen properties (or features) of the

galaxy by their predictive power for the task at

hand. In this approach features are not chosen

a priori, but learnt during training.

Cette approche pourrait être considérée comme

le cas le plus extrême de l’importance des

propriétés (Hoyle et al., 2015). L’importance

des propriétés classe les propriétés (ou les

caractéristiques) sélectionnées pour l’étude de

la galaxie en fonction de leur pouvoir prédictif

pour la tâche à accomplir. Dans notre

approche, les propriétés ne sont pas choisies a

priori, mais apprises durant la phase

d’entraînement.

Cette approche peut être considérée comme le

cas le plus extrême de classification des

éléments caractéristiques par ordre

d’importance (Hoyle et al., 2015). Cette

classification des caractéristiques de galaxies

s’effectue en fonction de leur pouvoir prédictif

pour la réalisation d’une tâche cible. Dans

notre approche, les caractéristiques ne sont pas

choisies a priori, mais apprises durant la phase

d’entraînement.

Le terme « feature » présentait un enjeu tout au long de la traduction. Le terme « feature importance » figure en italique dans le texte source : il

fallait le traduire précisément puisqu’il s’agit de la description de l’approche de la recherche menée par Ben Hoyle, qui est défini dans la phrase

suivante. De prime abord, « feature » semble être un terme de la langue générale relativement simple à traduire, mais dans le domaine de

l’apprentissage automatique, il s’agit d’un terme d’une langue de spécialité dont la signification n’a pas été si simple à appréhender.

94

Nos recherches terminologiques et les discussions avec les différents experts nous ont permis d’élaborer une fiche longue de ce terme pour aboutir

à la définition suivante :

Trouver l’équivalent en français n’était pas évident : il pouvait s’agir d’attributs, de propriétés, ou encore de caractéristiques. Nous avons donc

procédé à une estimation du nombre d’occurrences de ces termes, que nous avons réunies dans un tableau :

attribut 378 (82.16 par million) propriété 1,178 (256.05 par million) caractéristique 1,435 (311.91 par million)

Cependant, le critère quantitatif n’est pas suffisant pour retenir le terme « caractéristique », nous avons appliqué la méthode du crochet

terminologique et nous nous sommes concentrés sur le terme « feature selection », qui désigne une phase importante de l’apprentissage

automatique. En français, étant donné que la terminologie du domaine est encore en train de se structurer, il ne semble pas y avoir d’équivalent

établi. Mais en cherchant les équivalents dans d’autres langues, nous avons trouvé une traduction en italien : le terme « selezione delle

caratteristiche ». Nous ennvisagions l’emploi du terme « caractéristiques » et avons émis cette proposition de traduction aux experts francophones,

qui nous ont confirmé que le terme était pertinent dans ce contexte. Cependant, comme le précise la seconde phrase de l’extrait, il s’agit d’une

classification d’éléments par ordre d’importance. Nous avons donc remanié les unités de sens de cet extrait, reformulé la phrase pour finalement

traduire ce concept par la formulation « classification des éléments caractéristiques par ordre d’importance ».

95

4.2.4 Intégrer des connaissances extralinguistiques à notre traduction

This stretching leads to an energy loss of the

photon and a shift towards redder

wavelengths, which is known as the redshift.

Cet étirement conduit à une perte d’énergie des

photons et à un décalage vers des longueurs

d’onde plus allongées dans le « rouge », connu

sous le nom de redshift (ou décalage vers le

rouge).

Cet étirement entraîne une perte d’énergie des

photons et un décalage vers les grandes

longueurs d’onde, connu sous le nom de

redshift (ou décalage vers le rouge).

Nous avons ici affaire à un contexte définitoire du terme redshift, que nous relevons grâce au marqueur « which is known as ». Nous avions déjà

étudié le concept de redshift durant nos recherches terminologiques. L’emprunt à l’anglais du terme « redshift » est d’usage dans cette LSP, comme

nous l’ont confirmé l’expert et nos recherches en corpus.

Nous faisons une recherche en corpus autour des termes « longueurs d’onde » non loin de « rouge ». Nous obtenons ces concordance :

96

Quelques régularités semblent émerger :

- L’adjectif « rouge » est parfois mentionné entre guillemets, ce qui pourrait dénoter une volonté de l’auteur de ne pas entrer dans les détails

et de mentionner uniquement un aspect descriptif censé être suffisamment explicite pour le destinataire : longueurs d’onde de la partie

« rouge », grandes longueurs d’onde dans le « rouge » ;

- un phénomène de colligation de la préposition « vers », qui se retrouve fréquemment en cooccurrence avec cet adjectif : vers le rouge, vers

la partie du spectre correspondant au rouge ;

- enfin, plusieurs concordances explicitent la notion de manière plus définitoire :

les raies de son spectre sont déplacées vers les grandes longueurs d’onde , c’est-à-dire vers la partie du spectre correspondant au rouge.

en fonction des longueurs d’ onde correspondant au rouge

mesurent des quantités de lumière dans les longueurs d’ onde situées autour du rouge

Nous avons finalement choisi d’évoquer la notion scientifique centrale : le décalage vers les grandes longueurs d’onde, puis d’introduire le terme

« redshift » en y ajoutant le terme français entre parenthèses, qui inclut la notion de couleur : « décalage vers le rouge ».

97

The distances to galaxies are inferred by the

distance-redshift relation which relates how the

galaxy light is stretched due to the expansion

of the Universe as it travels from the galaxy to

our detectors.

Les distances des galaxies sont déduites par la

relation entre la distance et le redshift, qui

exprime l’étirement de la lumière de la galaxie

en raison de l'expansion de l'Univers,

lorsqu’elle voyage de la galaxie jusqu’à nos

détecteurs.

Nous calculons la distance des galaxies grâce à

la relation entre la distance et le redshift, qui

exprime l’augmentation de la longueur d'onde

de la lumière émise par les galaxies en raison

de l'expansion de l'Univers, lorsque la lumière

voyage de la galaxie jusqu’à nos détecteurs.

L’extrait ci-dessus est issu d’une section de l’introduction destinée à expliquer les concepts astronomiques à des néophytes : par exemple aux

spécialistes du deep learning qui s’intéressent aux applications en astronomie. Dans un premier temps, nous avons traduit l’adjectif « stretched »

par nominalisation, en évoquant « l’étirement » de la lumière, puisqu’au moment de ce premier jet de traduction nous n’avions pas encore toutes

les clés nécessaires à la compréhension du concept de redshift.

Comme nous l’avons mentionné dans le protocole de recherche documentaire, avons ensuite mené des recherches autour du concept de redshift, et

nous avons notamment trouvé ce contexte définitoire :

WHAT IS REDSHIFT? 'Redshift' is a key concept for astronomers. The term can be understood literally - the wavelength of the light is stretched, so the light is seen

as 'shifted' towards the red part of the spectrum. Something similar happens to sound waves when a source of sound moves relative to an observer.

Conserver l’image de l’étirement présente l’avantage de permettre aux lecteurs néophytes de visualiser le phénomène.

Dans la seconde version de la traduction, nous nous sommes éloignés d’une traduction littérale et avons exprimé le phénomène en y incluant les

connaissances extralinguistiques issues de nos recherches : il s’agit bien d’un étirement de la longueur d’onde de la lumière. En allant plus loin

98

dans nos recherches, nous avons constaté que le terme « longueur d’onde » entre en collocation avec le verbe « augmenter » ou le substantif

« augmentation ». Ces formulations provoquent également l’effet visuel recherché, nous avons donc retenu cette seconde version.

99

Obtaining very accurate spectroscopic

redshifts, which measures the redshifted

spectral absorption and emission lines,

requires very long exposure times on

dedicated spectrographs and is typically only

performed for a small sub-sample of all

galaxies.

Pour obtenir un redshift spectroscopique très

précis, des temps d’exposition très longs sur

des spectrographes spécifiques sont

nécessaires : une mesure de l’absorption

spectrale et des raies d’émission décalées vers

le rouge qui ne s’effectue généralement que

sur un sous-échantillon réduit de toutes les

galaxies.

La procédure permettant l’obtention de

redshifts spectroscopiques très précis consiste

à mesurer le redshift de l’absorption spectrale

et des raies d’émission. Elle nécessite des

temps d’exposition très longs sur des

spectrographes spécifiques et ne s’effectue

généralement que sur un sous-échantillon

réduit de toutes les galaxies.

Cet extrait est intéressant puisqu’il est riche en connaissances et présente plusieurs liens conceptuels.

L’enjeu principal était de traduire l’unité de sens principale de la phrase « Obtaining very accurate spectroscopic redshifts » et de la relier à sa

définition (la mesure), ses prérequis (le temps d’exposition) et ses limites (sous-échantillon réduit). Notre première version de la traduction était

une tentative de reformulation des unités de sens, mais qui manquait de précision : la syntaxe de la phrase en français ne reflétait pas précisément

les liens sémantiques. Nous avons donc remanié les éléments de sens en créant cette fois deux phrases pour expliquer la procédure dans une seconde

version plus détaillée, mais qui gagne en lisibilité.

De plus, au cœur de cette phrase, le cluster « very long exposure times », a nécessité des recherches dans le corpus français des occurrences du

terme « temps d’exposition » associé à l’adjectif « long » pour valider cette traduction.

100

Ces concordances nous ont permis de confirmer que l’on parle bien de « temps d’exposition longs ».

101

4.2.5 Approche sémasiologique et utilité de la transposition

To produce a fair comparison with the image

analysis, we choose to use the de-reddened

model magnitudes in the g, r, i, z bands and the

size of each galaxy measured by the Petrosian

radius in the r band.

Pour que la comparaison soit équitable en

regard de l'analyse de l'image, nous choisissons

d'utiliser les magnitudes de modèle dont la

couleur rouge a été soustraite dans les bandes

g, r, i, z et la taille de chaque galaxie mesurée

par le rayon pétrosien dans la bande r.

Pour que la comparaison soit juste en regard de

l'analyse de l'image, nous choisissons d'utiliser

des modèles redéfinis dont la couleur rouge a

été soustraite des bandes g, r, i, z et la taille de

chaque galaxie mesurée par le rayon pétrosien

dans la bande r.

En premier lieu, nous sommes intéressés au sens de l’adjectif « de-reddened » au sein du cluster « de-reddened model magnitude ». L’auteur de

l’article ayant accepté de répondre à nos questions, nous l’interrogeons sur ce terme, voici sa réponse :

Julia Pagès : In section 2 Galaxy data and images: "we choose to use the de-reddened model magnitudes in the g, r, i, z bands." Does the verb "de-redden" mean you

use the magnitudes of models in which the color red has been deleted? Is "model magnitudes" a specific term?

Ben Hoyle: This means that the magnitudes have been corrected for "galactic extinction". This is caused by the dust in our galaxy, and makes galaxies appear less

bright (at bluer wavelenghts) than they actually are. We need to correct for this effect, so we get the true color or magnitude of the galaxy.

Il s’agit d’une correction d’effets observés, qui est opérée durant la phase de prétraitement des images.

102

Nous lançons une requête dans notre corpus afin de trouver des contextes mentionnant les termes « poussière » non loin du préfixe « rougi* », ce

qui nous permet de trouver un équivalent de la notion en français « le rougissement par la poussière ».

Cette piste nous mène à adopter une approche sémasiologique pour déterminer concrètement en quoi consiste la correction du traitement de l’image élaborée par l’auteur.

Nous nous intéressons plus en détails au terme « galactic extinction » mentionné par Ben Hoyle, en cherchant « extinction » non loin de

« galaxie|galactique » et trouvons le contexte définitoire suivant :

Extinction due à la Galaxie. Même si le Soleil, et donc la Terre, se trouvent en périphérie de la Voie Lactée, ils n’en restent pas moins des composants de la Galaxie

entouré des autres composants comme le gaz et la poussière. Ceci entraine donc le fait que la lumière qui nous parvient sur Terre a été atténuée par rapport au signal

qui a été émis. C’est l’extinction galactique.

De même, nous trouvons que l’on peut employer la collocation « correction pour l’extinction + Substantif (d’un objet céleste) :

103

Nos recherches documentaires nous mènent à découvrir le phénomène d’ « interstellar extinction », qui est l’hypéronyme du terme

« galactic extinction ». Cela nous permet d’ajouter une nouvelle branche pour cette taxinomie à notre arborescence.

Il est intéressant de noter que dans ces articles spécialisés, le terme renvoie directement à la correction de l’effet observé dans le cadre du traitement

d’images. Le référent n’est donc pas le phénomène en lui-même, mais ses effets sur l’image absorbée par le détecteur. Le processus de correction

des images prend en compte ces phénomènes au moyen de calculs : l’expert Vivien Scottez nous explique qu’il s’agit d’une opération de

soustraction de la couleur, nous avons donc opté pour « la couleur rouge a été soustraite des bandes g, r, i, z ».

104

4.2.6 Déchiffrer les sigles et les groupes nominaux complexes

The galaxy data in this study are drawn from

the SDSS Data Release 10 (Ahn et al., 2014).

The SDSS I–III uses a 2.4 m telescope at

Apache Point Observatory in New Mexico and

has CCD wide field photometry in 5 bands

(Gunn et al., 2006; Smith et al., 2002), and an

expansive spectroscopic follow up programme

(Eisenstein and D.J., 2011) covering π

steradians of the northern sky.

Les données de la galaxie de cette étude sont

issues du SDSS Data Release 10 (Ahn et al.,

2014). Le SDSS I–III emploie un télescope de

2,4 m de l'observatoire Apache Point du

Nouveau-Mexique qui possède un photomètre

grand champ doté d’un CCD (charge-couple

device : dispositif à transfert de charges) de 5

bandes (Gunn et al., 2006; Smith et al., 2002),

et un programme de suivi spectroscopique

expansif (Eisenstein et D.J., 2011) couvrant π

steradians du ciel nord.

Pour cette étude, les données de galaxie sont


2014). Les trois premières générations du

relevé (SDSS I–III) emploient un télescope de

2,5 m de diamètre, situé à l'observatoire

Apache Point du Nouveau-Mexique, dont le

système photométrique comprend des capteurs

CCD (charge-couple device : dispositif à

transfert de charges) grand champ et un jeu de

5 filtres (Gunn et al., 2006; Smith et al., 2002).

Les SDSS I-III s’inscrivent dans un vaste

programme de relevés spectroscopiques

(Eisenstein et D.J., 2011) couvrant π steradians

du ciel nord.

105

Cet extrait présentait plusieurs enjeux de traduction. Le premier jet était une traduction littérale du texte source que nous n’avions pas encore

totalement élucidé, ainsi les référents concrets des sigles SDSS I–III et CCD nous étaient encore inconnus. Nos recherches nous ont permis de

comprendre que les relevés astronomiques, tels que le SDSS, sont généralement nommés par des sigles (dont une liste non-exhaustive figure dans

la section 2.3.1), et que l’on parle de « génération de relevés » : comme nous le constatons dans la concordance ci-dessous.

Le baryon oscillation spectroscopic survey (BOSS), principale composante de la troisième génération de relevés SDSS, a été le premier à utiliser les gigantesques émetteurs que sont les quasars pour cartographier la distribution du gaz d'hydrogène intergalactique et ainsi mesurer la structure de l'Univers jeune. 107

Ici, les connaissances extralinguistiques du traducteur dans un champ spécialisé entrent de nouveau en jeu, il nous a semblé pertinent de commencer

la phrase en étoffant légèrement pour indiquer qu’il s’agit des trois premières générations du relevé.

Concernant le second sigle « CCD », la construction de l’arborescence et le travail de recherche documentaire préalable nous ont été d’une grande

utilité : ainsi, dans la section 3.2.1.1, nous avons établi les liens holonymes / méronymes entre les termes « télescope », « photomètre », « filtre »

et « CCD ». Il nous semble que si le texte source mentionne le terme « bande », en français le terme approprié serait l’objet, donc le « filtre ». Nous

y voyons un exemple représentatif de l’importance d’un travail terminologique minutieux : des liens bien établis entre les termes permettent au

traducteur spécialisé de retravailler son texte à la lumière de ses connaissances d’ensemble.

107 Roos, Léa, Les astronomes du Sloan Digital Sky Survey réalisent la mesure la plus précise à ce jour du taux d’expansion de l’univers, CEA, Communiqué de presse, avril 2014

106

En explorant les concordances de notre corpus, nous découvrons les termes « système photométrique » et « jeu de filtres » qui nous semblent être

les plus appropriés dans ce contexte :

Il existe de nombreux standards photométriques. Les filtres Sloan sont conformes au système photométrique du SDSS (Sloan Digital Sky Survey). Conçu par Fukugita et al, ce système comprend un jeu de 5 filtres non chevauchants, couvrant une largeur spectrale allant de 300nm (dans l'ultraviolet) à 1100nm (dans l'infrarouge).

C’est ce contexte qui nous a permis de reformuler notre traduction dans sa version finale : « télescope de 2,5 m de diamètre, situé à l'observatoire

Apache Point du Nouveau-Mexique, dont le système photométrique comprend des capteurs CCD (charge-couple device : dispositif à transfert de

charges) grand champ et un jeu de 5 filtres ».

Enfin, le groupe nominal complexe « expansive spectroscopic follow up programme » nous pose deux problèmes de traduction : d’une part il faut

identifier la tête de ce groupe nominal complexe. Il s’agit là d’un problème terminologique auquel le traducteur est souvent confronté. D’autre part,

nous devons saisir de quoi il s’agit : est-ce un vaste programme informatique opéré à distance ou un ensemble de relevés astronomiques ? Nous

nous référons à la source mentionnée pour y voir plus clair :

Building on the legacy of the Sloan Digital Sky Survey (SDSS-I and II), SDSS-III is a program of four spectroscopic surveys on three scientific themes: dark energy and cosmological parameters, the history and structure of the Milky Way, and the population of giant planets around other stars.

Nous comprenons alors qu’il s’agit d’un « vaste programme de relevé spectroscopique couvrant π steradians du ciel nord ».

107

4.2.7 Gagner en clarté et en cohérence

We randomly shuffle and subdivide the

64,647 galaxies into training, cross-validation

and test samples of size 33,167, 4047, and

27,433. In what follows we train the machine

learning architectures on the training sample.

We then vary the hyperparameters of the

machine learning architecture and retrain a

new model.

Pour les phases d’entraînement, de validation

croisée et de test, nous subdivisons de façon

aléatoire les 64 647 galaxies en échantillons de

dimensions : 33 167, 4 047 et 27 433. Puis,

nous entraînons les architectures

d'apprentissage automatique avec l'échantillon

d’entraînement. Nous choisissons ensuite de

nouveaux hyperparamètres pour l’architecture

d'apprentissage de la machine pour entraîner

un nouveau modèle.

Nous mélangeons aléatoirement les 64 647

galaxies que nous subdivisons en trois jeux de

données : 33 167 pour la phase

d’apprentissage, 4 047 pour la phase de

validation croisée et 27 433 pour la phase de

test. Puis, nous entraînons le DNN avec le jeu

de données d’apprentissage. Nous choisissons

ensuite de nouveaux hyperparamètres pour

l’architecture d’apprentissage automatique

pour entraîner un nouvel échantillon.

Pour cet extrait, nous avons eu recours à l’aide des experts pour valider les termes en lien avec les phases d’entraînement des réseaux de neurones :

notamment le verbe « to vary », qui adopte parfois un sens particulier dans certaines LSP. L’auteur du texte nous a apporté quelques précisions.

Julia Pagès : Concerning the verb "to vary", as it sometimes has a specific technical meaning in context, I would like to clarify if this is a part of "feature selection" that

means "to select another variable/hyper-parameter", or if it means "to change the values of the hyper-parameters"?

108

Ben Hoyle : It means "to select another variable/hyper-parameter" and see how it peforms, and then to "to select another variable/hyper-parameter" again ...

Une fois cette terminologie acquise, il nous a fallu comprendre le processus au moyen duquel la machine procède au mélange aléatoire des images.

Ainsi, dans un premier temps nous avions traduit les unités de traduction dans le même ordre que le texte source. Cependant, il s’est avéré nécessaire

de réorganiser les éléments de sens et de les présenter dans un ordre permettant ainsi une meilleure compréhension en français. Il nous a semblé

cohérent de présenter d’abord le nombre total de galaxies, puis nous avons compris que chacun des jeux de données correspondait à une phase

spécifique de l’apprentissage. Nous avons donc reformulé la phrase dans ce sens.

109

4.2.8 Versions envisagées pour le titre et décision finale

Voici le résultat de plusieurs semaines de remises en question des possibilités de traduction du titre et de la justesse des termes à employer :

Titre source : Measuring photometric redshifts using galaxy images and Deep Neural Networks

Mesure du décalage vers le rouge photométrique à l’aide d’images de galaxies et de réseaux de neurones profonds

Système de mesure du redshift photométrique par les réseaux de neurones profonds appliqués au traitement d’images de galaxies

Méthode de mesure du redshift photométrique par les réseaux de neurones appliqués au traitement d’images de galaxies

Estimation du redshift photométrique par les réseaux de neurones appliqués au traitement d’images de galaxies

Utilisation de DNNs appliqués au traitement d’images de galaxies pour la mesure du redshift photométrique

Utilisation de méthodes de deep learning appliquées au traitement d’images de galaxies pour la mesure du Photo-Z

DNNs appliqués au traitement d’images de galaxies pour l’estimation du Photo-Z

- Comme nous l’avons vu tout au long du commentaire terminologique, nous avons constaté que les traductions littérales ne sont pas encore

installées pour la plupart des termes en français : dans la communauté scientifique, les experts parlent plus souvent entre eux de « redshift

photométrique » que de « décalage vers le rouge ».

- En approfondissant nos recherches terminologiques et l’importance du phénomène de la siglaison dans ce micro domaine, nous observons

que les spécialistes, aussi bien dans le domaine de l’astronomie que du deep learning, ont tendance à employer de plus en plus souvent des

sigles comme DNNs, et l’abréviation Photo-Z.

- S’agissant d’un titre, nous préférons qu’il soit le plus clair possible et que le lecteur arrive à extraire les informations nécessaires dans un

temps optimal. C’est pourquoi nous avons choisi la quatrième version pour le titre : « Estimation du redshift photométrique par les réseaux

de neurones appliqués au traitement d’images de galaxies ».

110

Parmi toutes ces possibilités, prendre la bonne décision semble être une tâche difficile, tant les paradigmes sont multiples et semblent parfois

s’entrecroiser. Heureusement, l’utilisation des outils à la disposition du traducteur et le travail en corpus nous a permis d’y voir plus clair pour

matérialiser une stratégie.

111

4.3 Conclusion sur le mémoire de traduction

“A translator without a computer is like a taxi driver without a taxi”, Xosé Castro Roig, 2003

Ces dernières années, les avancées technologiques ont modifié en profondeur l’exercice du

métier de traducteur et la linguistique de corpus présente de nombreux avantages pour notre

profession. Bâtir son propre corpus dans un domaine et en analyser les concordances permet de

mettre en relief les termes et les concepts clés du domaine. Grâce à ces outils, le traducteur peut

manipuler des corpus de millions de mots et appréhender un domaine plus rapidement et

efficacement pour se concentrer sur la reformulation du discours dans toutes ses nuances en

langue de spécialité. Au travers du travail mené cette année et au fil des exemples évoqués dans

le commentaire de traduction, nous avons pu constater les avantages que présentent ces outils

pour la rédaction dans une langue de spécialité : que ce soit pour comprendre un élément de

sens, trouver l’unité terminologique la plus adaptée, utiliser la meilleure collocation ou tout

simplement vérifier l’emploi d’une préposition.

Il n’en reste pas moins que les compétences purement humaines de la traduction sont au cœur

de notre activité : notre capacité à comprendre les subtilités de la langue, notamment au niveau

pragmatique, tout comme les nuances liées à la communication interculturelle. C’est

précisément ce qui rend le métier de traducteur essentiel et fascinant.

112

4.4 Traduction alignée

Texte source Première version de la traduction Version finale de la traduction

Measuring photometric redshifts 108using

galaxy images and Deep Neural Networks

DNNs appliqués au traitement d’images de

galaxies pour l’estimation du Photo-Z

Estimation du redshift photométrique par les

réseaux de neurones appliqués au traitement

d’images de galaxies

B. Hoyle

Universitaets-Sternwarte, Fakultaet fuer

Physik, Ludwig-Maximilians Universitaet

Muenchen, Scheinerstr. 1, D-81679,

Muenchen, Germany Excellence Cluster

Universe, Boltzmannstr. 2, D-85748,

Garching, Germany

B. Hoyle

Observatoire de Munich, Faculté de Physique,

Université Louis-et-Maximilien de Munich,

Scheinerstr. 1, D-81679, Munich, Allemagne,

Excellence Cluster Universe, Boltzmannstr. 2,

D-85748, Garching, Allemagne

B. Hoyle

Observatoire de Munich, Faculté de Physique,

Université Louis-et-Maximilien de Munich,

Scheinerstr. 1, D-81679, Munich, Allemagne,

Excellence Cluster Universe, Boltzmannstr. 2,

D-85748, Garching, Allemagne

ABSTRACT RÉSUMÉ RÉSUMÉ

108 Légende : fiche longue en jaune, fiche courte en bleu, fiche glossaire en rose

113

We propose a new method to estimate the

photometric redshift of galaxies by using

the full galaxy image in each measured

band. This method draws from the latest

techniques and advances in machine

learning, in particular Deep Neural

Networks.

Nous proposons une nouvelle méthode

d’estimation du redshift photométrique qui

utilise l’image complète de la galaxie dans

chaque bande spectrale mesurée. Cette

méthode s’inspire des dernières techniques et

progrès de l'apprentissage automatique et plus

particulièrement des réseaux de neurones

profonds (en anglais : Deep Neural Networks,

DNNs).

Nous proposons une nouvelle méthode

d’estimation du redshift photométrique qui

utilise l’image complète de la galaxie dans

chaque bande spectrale mesurée. Cette méthode

s’inspire des dernières techniques et progrès de

l'apprentissage automatique et plus

particulièrement des réseaux de neurones

profonds (en anglais : Deep Neural Networks,

DNNs).

We pass the entire multi-band galaxy image

into the machine learning architecture to

obtain a redshift estimate that is

competitive, in terms of the measured point

prediction metrics, with the best existing

standard machine learning techniques.

L'architecture d'apprentissage automatique est

alimentée par une image multibande de la

galaxie complète afin d’obtenir une estimation

du redshift dont la précision des point mesurés

rivalise les meilleures techniques classiques

d'apprentissage automatique.

Nous appliquons une image multibande de la

galaxie complète en entrée de l’architecture

d’apprentissage automatique, afin d’obtenir une

estimation du redshift dont la précision rivalise

les techniques courantes d'apprentissage

automatique.

114

The standard techniques estimate redshifts

using post-processed features, such as

magnitudes and colours, which are

extracted from the galaxy images and are

deemed to be salient by the user. This new

method removes the user from the

photometric redshift estimation pipeline.

Classiquement, la mesure du redshift

s’effectue à l'aide de méthodes de post-

traitement appliquées aux images de galaxies

dont les valeurs extraites, telles que les

mesures de magnitude et les indices de

couleur, sont considérées comme étant les plus

saillantes par l’utilisateur. Mais le pipeline de

traitement des données utilisé dans cette

nouvelle méthode ne nécessite pas

d’intervention de l’utilisateur.

Les techniques de calculs courantes du redshift

sont basées sur des caractéristiques de post-

traitement extraites d’images de galaxies, telles

que les mesures de magnitude et les couleurs,

qui sont considérées comme étant les plus

saillantes par l’utilisateur. Dans cette nouvelle

méthode, l’utilisateur n’intervient pas dans le

pipeline de traitement des données utilisé.

However we do note that Deep Neural

Networks require many orders of magnitude

more computing resources than standard

machine learning architectures, and as such

are only tractable for making predictions on

Cependant, nous constatons que les réseaux de

neurones profonds exigent beaucoup plus de

ressources informatiques que les architectures

classiques d'apprentissage automatique. En

tant que tels, ils ne peuvent être utilisés que

pour faire des prédictions sur des jeux de

Cependant, nous constatons que les réseaux de

neurones profonds exigent des ressources

informatiques d’un ordre de grandeur supérieur

à celles des architectures classiques

d'apprentissage automatique. En tant que tels, ils

peuvent uniquement traiter et faire des

115

datasets of size ≤50k before implementing

parallelisation techniques.

données de taille ≤ 50 k avant la mise en place

de la parallélisation.

prédictions sur des jeux de données d’une taille

≤ 50 k avant la parallélisation.

1. Introduction 1. Introduction 1. Introduction

To maximise the cosmological information

available from current and upcoming large

scale galaxy surveys, one requires robust

distance estimates to many galaxies. The

distances to galaxies are inferred by the

distance-redshift relation which relates how

the galaxy light is stretched due to the

expansion of the Universe as it travels from

the galaxy to our detectors.

Pour maximiser les données cosmologiques

disponibles grâce aux relevés galactiques à

grande échelle actuels et à venir, il est

nécessaire de recueillir de solides estimations

de distance de nombreuses galaxies. Les

distances des galaxies sont déduites par la

relation entre la distance et le redshift, qui

exprime l’étirement de la lumière de la galaxie

en raison de l'expansion de l'Univers,

lorsqu’elle voyage de la galaxie jusqu’à nos

détecteurs.

Pour maximiser les données cosmologiques

disponibles grâce aux relevés galactiques à

grande échelle en cours ou à venir, il faut

disposer d’estimations de distance fiables de

nombreuses galaxies. Nous calculons la distance

des galaxies grâce à la relation entre la distance

et le redshift, qui exprime l’augmentation de la

longueur d'onde de la lumière émise par les

galaxies en raison de l'expansion de l'Univers,

lorsque la lumière voyage de la galaxie jusqu’à

nos détecteurs.

This stretching leads to an energy loss of the

photon and a shift towards redder

Cet étirement conduit à une perte d'énergie des

photons et à un décalage vers des longueurs

Cet étirement entraîne une perte d'énergie des

photons et un décalage vers les grandes

116

wavelengths, which is known as the

redshift. The further away the galaxy is

from us, the longer the light has been

passing through the expanding Universe,

and the more it becomes redshifted.

d'onde plus allongées dans le « rouge », connu

sous le nom de redshift (ou décalage vers le

rouge). Plus une galaxie est loin de nous, plus

sa lumière traverse l'univers en expansion et se

décale vers le rouge.

longueurs d’onde, connu sous le nom de redshift

(ou décalage vers le rouge). Plus une galaxie est

lointaine, plus la lumière qu’elle émet aura

traversé l'univers en expansion et se sera décalée

vers le rouge.

Obtaining very accurate spectroscopic

redshifts, which measures the redshifted

spectral absorption and emission lines,

requires very long exposure times on

dedicated spectrographs and is typically

only performed for a small sub-sample of all

galaxies.

Pour obtenir un redshift spectroscopique très

précis, des temps d’exposition très longs sur

des spectrographes spécifiques sont

nécessaires : une mesure de l’absorption

spectrale et des raies d’émission décalées vers

le rouge qui ne s’effectue généralement que


galaxies.

La procédure permettant l’obtention de redshifts

spectroscopiques très précis consiste à mesurer

le redshift de l’absorption spectrale et des raies

d’émission. Elle nécessite des temps

d’exposition très longs sur des spectrographes

spécifiques et ne s’effectue généralement que


galaxies.

Conversely, the measurement of multi-band

photometric properties of galaxies is much

À l’inverse, la mesure des propriétés

photométriques multibandes des galaxies est

À l’inverse, la caractérisation photométrique

multibande des galaxies est moins coûteuse en

117

cheaper. The compromise is then to attempt

to extract less accurate redshift information

from photometrically measured properties,

but applied to a much larger galaxy sample.

Photometric redshift estimates are obtained

from either template fitting techniques,

machine learning techniques, or some

hybrid of the two for example using data

augmentation (Hoyle et al., 2015).

beaucoup moins onéreuse. Le compromis

consiste alors à tenter d'extraire des

informations de redshift moins précises à partir

de valeurs photométriques, mais d’un

échantillon de galaxies beaucoup plus grand.

Les estimations du redshift photométrique

peuvent être obtenues à partir de procédures

d'ajustement de modèles, de techniques

d'apprentissage automatique ou d'un hybride

des deux, par exemple en utilisant

l'augmentation des données (Hoyle et al.,

2015).

temps de calcul. Le compromis consiste alors à

tenter d'extraire des mesures de redshift moins

précises à partir des caractéristiques

photométriques d’un échantillon de galaxies

beaucoup plus grand. Les estimations de redshift

photométrique peuvent être obtenues à partir de

procédures d'ajustement de modèles, de

techniques d'apprentissage automatique ou

d'une méthode hybride comprenant ces deux

méthodes, par exemple au moyen de

l’augmentation de données (Hoyle et al., 2015).

The template methods are parametric

techniques and

are constructed from templates of the

Spectral Energy Distribution of the

Les méthodes matricielles sont des modèles

paramétriques construits à partir de

modélisations de la distribution énergétique

spectrale des galaxies. Certains modèles

Les méthodes utilisant des modèles sont des

modèles paramétriques construits à partir de

modélisations de la distribution énergétique

spectrale des galaxies. Certains modèles

118

galaxies. Some templates encode our

knowledge of stellar population models

which result in predictions for the evolution

of galaxy magnitudes and colours.

encodent nos connaissances des modèles de

population stellaire et permettent de prédire

l'évolution des magnitudes et des couleurs de

galaxie.

encodent nos connaissances des modèles de

population stellaire et permettent de prédire

l'évolution des magnitudes et des couleurs de

galaxie.

The parametric encoding of the complex

stellar physics coupled with the uncertainty

of the parameters of the stellar population

models, combine to produce redshift

estimates which are little better than many

non-parametric techniques.

L’encodage des paramètres de la physique

stellaire complexe, auquel s’ajoute

l'incertitude des paramètres des modèles de

population stellaire, s’associent pour induire

des estimations de redshift qui ne sont guère

meilleures que les mesures obtenues grâce aux

nombreuses autres techniques non-

paramétriques.

Le codage paramétrique de la physique stellaire

complexe associé à l'incertitude sur les

paramètres des modèles de population stellaire

induisent des estimations de redshift qui ne sont

guère meilleures que les mesures obtenues grâce

aux nombreuses autres techniques non-

paramétriques.

See e.g., Hildebrandt et al. (2010), Dahlen

(2013) for an overview of different

techniques. Unlike nonparametric and

machine learning techniques, the

Voir par exemple Hildebrandt et al. (2010),

Dahlen (2013) pour un aperçu des différentes

techniques. Contrairement aux techniques

d'apprentissage non paramétrique et

Voir par exemple Hildebrandt et al. (2010),

Dahlen (2013) pour un aperçu des différentes

techniques. Contrairement aux techniques

d'apprentissage non paramétrique et

119

aforementioned template methods do not

rely on training samples of galaxies, which

must be assumed to be representative of the

final sample of galaxies for which redshift

estimates are required.

d'apprentissage automatique, les méthodes

utilisant des modèles ne nécessitent pas

d’entraînement à base d’échantillons, qui sont

censés être représentatifs des galaxies pour

lesquelles des estimations de redshift sont

requises.

d'apprentissage automatique, les méthodes

utilisant des modèles ne nécessitent pas

d’entraînement à base d’échantillons, qui sont

présumés être représentatifs des galaxies pour

lesquelles des estimations de redshift sont

requises.

Other template methods are generated either

completely from, or in combination with,

empirical data, however these templates

both require tuning, and also rely upon

representative training samples.

D'autres méthodes utilisant des modèles sont

générées soit indépendamment, soit en

combinaison avec des données empiriques.

Cependant, ces deux modèles impliquent des

réglages et dépendent également

d’échantillons d’entraînement représentatifs.

D'autres méthodes utilisant des modèles sont

générées soit indépendamment, soit en

combinaison avec des données empiriques.

Cependant, ces deux modèles impliquent des

réglages et dépendent également d’échantillons

d’entraînement représentatifs.

When an unbiased training sample is

available, machine learning methods offer

an alternative to template methods to

estimate galaxy redshifts.

Lorsqu'un échantillon d’apprentissage sans

biais est disponible pour l’entraînement, les

méthodes d'apprentissage automatique

Lorsqu'un échantillon d’apprentissage sans biais

est disponible pour l’entraînement, les méthodes

d'apprentissage automatique constituent une

120

constituent une alternative aux approches

utilisant des modèles pour estimer le redshift.

alternative aux approches utilisant des modèles

pour estimer le redshift.

The ‘machine architecture’ determines how

to best manipulate the photometric galaxy

input properties

(or ‘features’) to produce a machine

learning redshift. The machine attempts to

learn the most effective manipulations to

minimise the difference between the

spectroscopic redshift and the machine

learning redshift of the training sample.

L'architecture machine détermine comment

manipuler au mieux les propriétés d’entrée

photométriques des galaxies (que nous

appellerons « propriétés » par la suite), pour

obtenir, grâce à l’apprentissage automatique,

une estimation du redshift. La machine tente

d'apprendre les manipulations optimales pour

minimiser la différence entre le redshift

spectroscopique et le redshift d'apprentissage

automatique calculé sur l'échantillon

d’entraînement.

L'architecture machine optimise l’utilisation des

caractéristiques photométriques des galaxies

fournies en entrée (que nous appellerons

dorénavant « caractéristiques »), pour obtenir,

grâce à l’apprentissage automatique, une

estimation du redshift. La machine tente

d'apprendre les manipulations optimales pour

minimiser la différence entre le redshift

spectroscopique et le redshift d'apprentissage

automatique calculé sur l'échantillon

d’entraînement.

The field of machine learning for

photometric redshift analysis has been

Le domaine de l’apprentissage automatique

pour l'analyse du redshift photométrique se

développe depuis l’utilisation des réseaux de

Le domaine de l’apprentissage automatique

pour l'analyse du redshift photométrique se

développe depuis l’utilisation des réseaux de

121

developing since Tagliaferri et al. (2003)

used artificial Neural Networks (aNNs).

neurones artificiels (aNNs) par Tagliaferri et

al. (2003).

neurones artificiels (aNNs) dans les travaux de

Tagliaferri et al. (2003).

A plethora of machine learning

architectures, including tree based methods,

have been applied to the problem of point

prediction redshift estimation (Sánchez and

Photometric, 2014) or to estimate the full

redshift probability distribution function

(Gerdes et al., 2010; Carrasco Kind and

Brunner, 2013; Bonnett, 2015; Rau et al.,

2015). Machine learning architectures have

also had success in other fields of

astronomy such as galaxy morphology

identification, and star&quasar separation

(Lahav, 1997; Yeche et al., 0000).

Une pléthore d'architectures d'apprentissage

automatique, y compris des méthodes

employant des arbres de décision, a été

appliquée au problème de l'estimation redshift

des points (Sánchez and Photometric, 2014) ou

pour estimer la fonction de distribution en

probabilité du redshift (Gerdes et al., 2010;

Carrasco Kind and Brunner, 2013; Bonnett,

2015; Rau et al., 2015). Les architectures

d'apprentissage automatique ont également fait

leurs preuves dans d'autres domaines de

l'astronomie comme l'identification de la

morphologie des galaxies ou la séparation

Une pléthore d'architectures d'apprentissage

automatique, y compris des méthodes

employant des arbres de décision, a été

appliquée au problème de l'estimation de valeur

ponctuelle du redshift (Sánchez and

Photometric, 2014) ou pour estimer la fonction

de distribution de probabilité du redshift (Gerdes

et al., 2010; Carrasco Kind and Brunner, 2013;

Bonnett, 2015; Rau et al., 2015). Les

architectures d'apprentissage automatique ont

également fait leurs preuves dans d'autres

domaines de l'astronomie tels que

l'identification de la morphologie des galaxies

122

étoile-quasar (Lahav, 1997; Yeche et al.,

2009).

ou la séparation étoile-quasar (Lahav, 1997;

Yeche et al., 2009).

The use of Deep Neural Networks

(hereafter DNN) as the machine learning

architecture has only recently been applied

to problems in astrophysics.

Ce n’est que récemment que l'utilisation de

réseaux neuronaux profonds (que nous

appellerons dorénavant DNN : deep neural

networks en anglais) comme architecture

d'apprentissage automatique a été appliquée

aux problèmes d'astrophysique.

Ce n’est que récemment que l'utilisation d’une

architecture d'apprentissage automatique basée

sur les réseaux de neurones profonds (que nous

appellerons dorénavant DNN : Deep Neural

Networks en anglais) a été appliquée aux

problèmes d'astrophysique.

For example Dieleman et al. (2015) taught

a DNN to replicate the detailed

morphological classifications obtained by

the citizen scientists answering questions

within the Galaxy Zoo 2 project (Willett et

al., 2013) and obtained an accuracy of up to

99% on some classification questions, and

(Hála, 2014) examined the problem of

Par exemple, Dieleman et al. (2015) a entraîné

un DNN à reproduire les classifications

morphologiques détaillées obtenues par les

astronomes amateurs qui avaient répondu aux

questions du projet Galaxy Zoo 2 (Willett et

al., 2013). Cela a permis d'obtenir des mesures

d’une précision allant jusqu'à 99 % sur

certaines questions de classification, et (Hála,

Par exemple, Dieleman et al. (2015) a entraîné

les DNN à reproduire les classifications

morphologiques détaillées obtenues par les

astronomes amateurs qui avaient répondu aux

questions du projet Galaxy Zoo 2 (Willett et al.,

2013). Cela a permis d'obtenir des mesures

d’une précision allant jusqu'à 99 % sur certaines

questions de classification, et (Hála, 2014) a

123

spectral classification from Sloan Digital

Sky Survey (Ahn et al., 2014) (hereafter

SDSS) spectra.

2014) a étudié la question de la classification

spectrale du Sloan Digital Sky Survey (Ahn et

al., 2014) (ci-après SDSS).

étudié la question de la classification spectrale

du Sloan Digital Sky Survey (Ahn et al., 2014)

(ci-après SDSS).

Within the standard machine learning

approach the choice of which photometric

input features to train the machine

architecture, from the full list of possible

photometric features, is still left to the

discretion of the user.

Dans l'approche classique de l’apprentissage

automatique, l’utilisateur sélectionne, parmi

une liste de toutes les caractéristiques

photométriques possibles, les propriétés

photométriques d’entrée qui effectueront

l’entraînement de l'architecture.

Dans l'approche classique de l’apprentissage

automatique, l’utilisateur sélectionne, parmi une

liste de tous les éléments d’entrée possibles, les

caractéristiques photométriques qui seront

utilisées pour l’entraînement de l'architecture.

The current author recently performed an

analysis of ‘feature importance’ for

photometric redshifts, which uses machine

learning techniques to determine which of

the many possible photometric features

produce the most predictive power (Hoyle

et al., 2015).

L’auteur a récemment effectué un classement

de l’« importances des propriétés »

révélatrices du redshift photométrique. Ainsi,

grâce aux techniques d'apprentissage

automatique, il est possible, parmi toutes les

possibilités de propriétés, de déterminer celles

L’auteur a récemment effectué un classement

de l’« importances des caractéristiques » les plus

représentatives du redshift photométrique.

Ainsi, grâce aux techniques d'apprentissage

automatique, il est possible, parmi différentes

propriétés, de déterminer celles dont le pouvoir

prédictif est le plus élevé (Hoyle et al., 2015).

124

dont la puissance prédictive est la plus efficace

(Hoyle et al., 2015).

The technique described in this paper is the

most extreme example of feature

importance possible. We no longer need to

impose our prior beliefs upon which derived

photometric features produce the best

redshift predictive power, or even measure

the photometric properties.

Le modèle que nous présentons est le cas le

plus extrême de l’importance des propriétés. Il

n’est plus nécessaire de postuler quelles

propriétés photométriques dérivées auront la

meilleure puissance prédictive de redshift, ni

même de mesurer les propriétés

photométriques.

Le modèle que nous présentons est le cas le plus

extrême de l’importance des propriétés. Il n’est

plus nécessaire de projeter des connaissances a

priori pour postuler les propriétés

photométriques dérivées qui auront le meilleur

pouvoir prédictif de redshift, ni même de

mesurer les propriétés photométriques.

By passing the entire galaxy image into the

Deep Neural Network machine learning

framework we completely remove the user

from the photometric redshift estimation

process.

Dans notre approche, passer l’image complète

de la galaxie dans l’architecture

d'apprentissage automatique (DNN) ne

requiert aucune intervention de l'utilisateur

lors du processus d’estimation du redshift

photométrique.

Dans notre approche, en introduisant l’image

complète de la galaxie dans l’architecture

d'apprentissage automatique (DNN) nous

écartons complètement l'utilisateur du processus

d’estimation du redshift photométrique.

125

Furthermore in order to use either the

template or standard machine learning

techniques to estimate redshifts, the

magnitudes, colours, and other properties of

the galaxies must be measured.

Par ailleurs, pour utiliser le modèle ou les

techniques standard d'apprentissage

automatique d’estimation du redshift, les

magnitudes, les couleurs et les autres

propriétés des galaxies doivent être mesurées.

Par ailleurs, tant les méthodes utilisant des

modèles que les techniques standard

d'apprentissage automatique d’estimation du

redshift impliquent de mesurer les magnitudes,

les couleurs et d’autres propriétés des galaxies.

The analysis presented in this paper, which

uses the full image of the galaxy partially

removes this requirement. However we do

still currently need the galaxy to have been

detected so that we can generate a postage

stamp image.

L'analyse présentée dans ce document, qui

utilise l'image complète de la galaxie,

supprime partiellement cette condition. Or, la

détection préalable de la galaxie est à ce jour

toujours nécessaire pour générer une image

aux dimensions d’un timbre-poste.

L'analyse présentée dans cet article, qui utilise

l'image complète de la galaxie, supprime

partiellement cette exigence. Cependant, nous

avons à ce jour toujours besoin de détecter les

galaxies au préalable pour produire une image

aux dimensions d’un timbre-poste.

The outline of the paper is as follows. In

Section 2 we describe the galaxy images

and the pre-processing steps to prepare the

images for the Deep Neural Networks.

Le plan de notre article est le suivant : dans la

deuxième partie (2), nous décrivons les images

de galaxies et les étapes de prétraitement des

données qui prépareront les images à

l’entraînement par le DNN.

Le plan de notre article est le suivant : dans la

section 2, nous décrivons les images de galaxies

et les étapes de prétraitement des données qui

prépareront les images à l’entraînement par les

DNN.

126

We then introduce both of the machine

learning architectures in Section 3, and

present the analysis and results in Section 4.

We conclude and discuss in

Section 5.

Nous présentons ensuite les deux architectures

d'apprentissage automatique dans la troisième

partie. La quatrième partie comprend l'analyse

et les résultats. Enfin, la cinquième partie

inclut la conclusion et la discussion.

Nous présentons ensuite les deux architectures

d'apprentissage automatique dans la section 3.

La section 4 comprend l'analyse et les résultats.

Enfin, la section 5 inclut la conclusion et la

discussion.

2. Galaxy data and images 2. Galaxy Data et images 2. Données de galaxies et images

The galaxy data in this study are drawn

from the SDSS Data Release 10 (Ahn et al.,

2014). The SDSS I–III uses a 2.4 m

telescope at Apache Point Observatory in

New Mexico and has CCD wide field

photometry in 5 bands (Gunn et al., 2006;

Smith et al., 2002), and an expansive

spectroscopic follow up programme

Les données de la galaxie de cette étude sont


2014). Le SDSS I–III emploie un télescope de

2,4 m de l'observatoire Apache Point du

Nouveau-Mexique qui possède un photomètre

grand champ doté d’un CCD (charge-couple

device : dispositif à transfert de charges) de 5

bandes (Gunn et al., 2006; Smith et al., 2002),

et un programme de suivi spectroscopique

Pour cette étude, les données de galaxie sont


2014). Les trois premières générations du relevé

(SDSS I–III) emploient un télescope de 2,5 m de

diamètre, situé à l'observatoire Apache Point du

Nouveau-Mexique, dont le système

photométrique comprend des capteurs CCD

(charge-couple device : dispositif à transfert de

charges) grand champ et un jeu de 5 filtres

127

(Eisenstein and D.J., 2011) covering π

steradians of the northern sky.

expansif (Eisenstein et D.J., 2011) couvrant π

steradians du ciel nord.

(Gunn et al., 2006; Smith et al., 2002). Les

SDSS I-III s’inscrivent dans un vaste

programme de relevés spectroscopiques

(Eisenstein et D.J., 2011) couvrant π steradians

du ciel nord.

The SDSS collaboration has obtained 2

million galaxy spectra using dual fibrefed

spectrographs. An automated photometric

pipeline performs object classification to a

magnitude of r ≈ 22 and measures

photometric properties of more than 100

million galaxies.

La collaboration dans le cadre du SDSS a

permis d’obtenir deux millions de spectres de

galaxies grâce à l’utilisation de spectrographes

double-fibres. Un pipeline photométrique

automatisé effectue la classification d’objets

jusqu’à une magnitude de r ≈ 22 et mesure les

propriétés photométriques de plus de 100

millions de galaxies.

La collaboration dans le cadre du SDSS a permis

d’obtenir deux millions de spectres de galaxies

grâce à l’utilisation de spectrographes double-

fibres. Un pipeline photométrique automatisé

effectue la classification d’objets jusqu’à une

magnitude de r ≈ 22 et mesure les propriétés

photométriques de plus de 100 millions de

galaxies.

The complete data sample, and many

derived catalogs such as the photometric

Tous les échantillons de données et de

nombreux catalogues dérivés, comme les

Tous les échantillons de données et de

nombreux catalogues dérivés, comme les

128

properties, and 5 band FITS images are

publicly available through the SDSS

website.

propriétés photométriques et les images 5

bandes FITS sont accessibles au public sur le

site Web du SDSS.

caractéristiques photométriques et les images 5

bandes FITS sont accessibles au public sur le

site Web du SDSS.

We obtain 64,647 sets of images from the

SDSS servers for a random selection of

galaxies which are chosen to pass the

following photometric selection criteria; the

angular extent must be less than 30 arc

seconds as measured by the ‘Exponential’

and ‘de’ Vaucouleurs’ light profiles in the r

band; and that each g, r, i, z has magnitudes

greater than 0.

Nous obtenons 64647 séries d'images à partir

des serveurs SDSS et de la sélection aléatoire

de galaxies selon les critères photométriques

suivants : leur étendue angulaire doit être

inférieure à 30 secondes d’arc d’après les

mesures des profils de brillances ‘exponentiel’

et ‘de Vaucouleurs’ dans la bande r ; et chaque

bande : g, r, i, z doit avoir une magnitude

supérieure à 0.

Nous obtenons 64 647 séries d'images à partir

des serveurs SDSS et de la sélection aléatoire de

galaxies selon les critères photométriques

suivants : leur étendue angulaire doit être

inférieure à 30 secondes d’arc d’après les

mesures des profils de brillance ‘exponentiel’ et

‘de Vaucouleurs’ dans la bande r ; et chaque

bande : g, r, i, z doit avoir une magnitude

supérieure à 0.

We further select galaxies which pass the

following spectroscopic selection criteria;

the error on the spectroscopic redshift to be

Nous choisissons également les galaxies qui

répondent aux critères de sélection

spectroscopiques suivants : l'erreur sur le

Nous choisissons également les galaxies qui

répondent aux critères de sélection

spectroscopiques suivants : l'erreur sur le

129

less than 0.1 and the spectroscopic redshift

must be below 2. We check that none of the

selected galaxies have images with missing

or masked pixel values. In detail we run the

MySQL query as shown in the appendix in

the CasJobs server.

redshift spectroscopique doit être inférieure à

0,1 et le redshift spectroscopique doit être

inférieur à 2. Nous vérifions qu'aucune des

galaxies sélectionnées ne comporte d’images

dont les valeurs de pixels manquent ou sont

masquées. En détail, nous exécutons la requête

MySQL comme indiqué dans l'appendice du

serveur CasJobs.

redshift spectroscopique doit être inférieure à

0,1 et le redshift spectroscopique doit être

inférieur à 2. Nous vérifions qu'aucune des

galaxies sélectionnées ne comporte d’images

dont les valeurs de pixels manquent ou sont

masquées. En détail, nous exécutons la requête

MySQL comme indiqué dans l'annexe du

serveur CasJobs.

We choose to obtain the galaxy image FITS

files in the following four photometric

bands; g, r, i, z. This enables a closer

resemblance to the bands available in other

photometric surveys, for example the Dark

Energy Survey (The Dark Energy Survey

Collaboration, 0000).

Nous choisissons d'obtenir les fichiers FITS de

galaxie dans les quatre bandes photométriques

suivantes : g, r, i et z. Cela permet de

rapprocher davantage les bandes disponibles

dans d'autres relevés photométriques, par

exemple la Dark Energy Survey (The Dark

Energy Survey Collaboration, 0000).

Nous paramétrons l’obtention de fichiers

d’images de galaxie FITS dans les quatre bandes

photométriques suivantes : g, r, i et z. Cela

permet d’optimiser les similitudes avec les

bandes rendues disponibles par d'autres relevés

photométriques, par exemple le Dark Energy

130

Survey (The Dark Energy Survey Collaboration,

0000).

Each pixel in the FITS file has a resolution

of 0.396 arc seconds and contains the

measured flux which has been corrected for

a range of observational and instrument

effects such as flat fielding and sky

subtraction, in order to be suitable for

astronomical analysis. All pixel fluxes are

converted to pixel magnitudes following

Lupton et al. (1999).

Chaque pixel du fichier FITS contient une

résolution de 0,396 secondes d'arc ainsi qu’un

flux mesuré auquel on applique une série de

corrections des biais dus aux observations et

aux instruments, comme la correction du flat

field (champ plan) et la soustraction du ciel,

pour préparer les données à l'analyse

astronomique. Tous les flux de pixels sont

convertis en magnitude de pixel d’après

Lupton et al. (1999).

Chaque pixel du fichier FITS a une résolution de

0,396 secondes d'arc et correspond à un flux

mesuré auquel nous avons appliqué un certain

nombre de corrections des biais dus aux

observations et aux instruments, comme la

correction de champ plat et la soustraction du

fond du ciel, pour préparer les données à

l'analyse. Tous les flux de pixels sont convertis

en magnitude de pixel en suivant Lupton et al.

(1999).

We apply a further extinction correction to

account for galactic dust using the maps of

Schlegel et al. (1998) which is available

Nous appliquons une nouvelle correction

d'extinction pour éliminer la poussière

galactique en utilisant les cartes de Schlegel et

Nous appliquons une nouvelle correction

d'extinction pour éliminer la poussière

galactique en utilisant les cartes de Schlegel et

131

from the photoObjAll table in the CasJobs

server. The extinction corrections are

subtracted from the value of magnitude in

each pixel in the corresponding FITS files.

We choose to use FITS images of size

72×72 pixels, corresponding to 28.5 arc

seconds on a side.

al. (1998), qui sont disponibles dans le tableau

photoObjAll du serveur CasJobs. Les

corrections d'extinction sont soustraites de la

valeur de magnitude de chaque pixel dans les

fichiers FITS correspondants. Nous

choisissons d'utiliser des images FITS d’une

dimension de 72×72 pixels, soit 28,5 secondes

d’arc de côté.

al. (1998), qui sont disponibles dans le tableau

photoObjAll du serveur CasJobs. Ces

corrections pour l’extinction sont soustraites de

la valeur de magnitude de chaque pixel dans les

fichiers FITS correspondants. Nous choisissons

d'utiliser des images FITS d’une dimension de

72×72 pixels, soit 28,5 secondes d’arc de côté.

We have explored the use of other image

dimensions

(32×32) but do not find improvement in the

obtained results. The chosen image size is

motivated by, and closely follows earlier

work using SDSS images (Dieleman et al.,

2015), and ensures that the training times

are tractable.

Nous avons étudié l’utilisation d'autres

dimensions d'image (32×32) mais les résultats

obtenus ne présentent aucune amélioration. La

taille de l'image choisie est justifiée et suit de

près les travaux antérieurs utilisant les images

du SDSS (Dieleman et al., 2015), ce qui

garantit que les temps d’entraînement sont

réalistes.

Nous avons envisagé l’utilisation d'autres

dimensions d'image (32×32) mais les résultats

obtenus ne présentent aucune amélioration. La

taille de l'image choisie est justifiée et suit de

près les travaux antérieurs utilisant les images

du SDSS (Dieleman et al., 2015), ce qui garantit

que les temps d’entraînement peuvent être

respectés.

132

In the top row of Fig. 1 we show RGB jpeg

images of three example galaxies with the

following mappings; g band magnitude →

R, r band magnitude → G, and the i band

magnitude → B. All pixel magnitudes are

further rescaled across the entire layer to be

integers within the range 0 to 255 for

viewing purposes only.

Dans la ligne supérieure de la Fig. 1, figurent

les images JPEG de trois exemples de galaxies

avec les mappings suivants : magnitude de la

bande g → R, magnitude de la bande r → G, et

magnitude de la bande i → B. Afin de faciliter

la visualisation des résultats, toutes les

magnitudes de pixels sont ensuite remises à

l’échelle sur l'ensemble du filtre et représentent

des entiers entre 0 et 255.

Dans la ligne supérieure de la Fig. 1, figurent les

images JPEG de trois exemples de galaxies avec

les mises en correspondance suivante pour les

valeurs RVB : magnitude de la bande g → R,

magnitude de la bande r → V, et magnitude de

la bande i → B. Afin de faciliter la visualisation

des résultats, toutes les magnitudes de pixels

sont ensuite remises à l’échelle sur l'ensemble

du système photométrique et convertis en

nombres entiers entre 0 et 255.

We further modify these base images to be

more suitable for photometric redshift

analysis by producing pixel colours from

the pixel magnitudes and map pixel colours

to each RGB layer pixel. We map the pixel

colours i–z to the R layer pixels, r–I to the

Nous modifions plus en détail ces images de

base pour les rendre compatibles avec l'analyse

du redshift photométrique. Nous calculons

l’indice de couleur des pixels à partir des

magnitudes de pixels et nous attribuons des

couleurs de pixels à chacune des trois

En outre, nous modifions ces images de base

pour les rendre compatibles avec l'analyse du

redshift photométrique. Nous calculons l’indice

de couleur des pixels à partir de leur valeur et

nous attribuons des couleurs à chacune des trois

composantes RVB. Nous procédons ensuite à

133

G layer pixels, and g–r to the B layer pixels.

Finally we pass the r band pixel magnitude

into an additional Alpha layer to produce an

RGBA image.

composantes RVB. Nous attribuons les

couleurs de pixels i-z aux pixels de la couche

R, r-I aux pixels de la couche V, et g-r aux

pixels de la couche B. Enfin, nous passons la

bande R d'amplitude des pixels dans une

couche Alpha additionnelle pour produire une

image RVBA.

l’appariement des couleurs de pixels i-z aux

pixels de la couche R, r-I aux pixels de la couche

V, et g-r aux pixels de la couche B. Enfin, nous

passons la bande R d'amplitude des pixels dans

une couche Alpha additionnelle pour produire

une image RVBA.

The r band magnitude is often used in this

way to act as a pivot point which provides

an overall normalisation to the input data.

This may be useful during training and is

common practice in photometric redshift

analysis using neural networks (see e.g.,

Brescia et al., 2014). Examples of these

modified images are shown in the second

L'amplitude de la bande R est souvent utilisée

comme valeur de référence pour effectuer la

normalisation globale des données d'entrée.

Cette pratique est courante dans l'analyse du

redshift photométrique par des réseaux de

neurones (voir par exemple Brescia et al.,

2014) et peut être utile durant l’entraînement.

Des exemples d’images modifiées figurent

dans la deuxième ligne de la Figure 1 (à des

L'amplitude de la bande R est souvent utilisée

comme valeur de référence pour effectuer la

normalisation globale des données d'entrée.

Cette pratique est courante dans l'analyse du

redshift photométrique par des réseaux de

neurones (voir par exemple Brescia et al., 2014)

et peut être utile durant l’entraînement. Des

exemples d’images modifiées figurent dans la

deuxième ligne de la Figure 1 (à des fins de

134

row of Fig. 1, but we show only the RGB

values for viewing purposes.

fins de visualisation nous présentons

uniquement les valeurs RVB).

visualisation nous présentons uniquement les

valeurs RVB).

During the analysis we scale all of the

images, such that the maximum pixel value

of 255 corresponds to the largest value

across all training and test images in each of

the RGBA layers separately. Likewise the

minimum pixel value of 0 is set to be the

smallest value in each layer across all

images.

Pendant l'analyse, toutes les images sont

redimensionnées pour que la valeur maximale

de pixel ‘255’ corresponde à la plus grande

valeur parmi toutes les images d’entraînement

et de test, et ce, dans chacune des couches

RVBA. De même, nous attribuons une valeur

minimale de pixel ‘0’ à chaque filtre et dans

toutes les images.

Pendant l'analyse, toutes les images sont

redimensionnées pour que la valeur maximale

de pixel ‘255’ corresponde à la plus grande

valeur parmi toutes les images d’entraînement et

de test, et ce, dans chacune des couches RVBA.

De même, nous attribuons une valeur minimale

de pixel ‘0’ à chaque filtre et dans toutes les

images.

For a comparison with standard machine

learning architectures we obtain model

magnitudes measured by the SDSS

photometric pipeline for each of the

galaxies. To produce a fair comparison with

the image analysis, we choose to use the de-

Pour comparer notre méthode aux

architectures d'apprentissage automatique

standard, nous déterminons les magnitudes

pour les modèles, qui sont mesurées par le

pipeline de photométrie SDSS pour chacune

des galaxies. Pour que la comparaison soit

Pour comparer notre méthode aux architectures

d'apprentissage automatique standard, nous

déterminons les amplitudes modèles, qui sont

mesurées par le pipeline photométrique SDSS

pour chacune des galaxies. Pour que la

comparaison soit juste en regard de l'analyse de

135

reddened model magnitudes in the g, r, i, z

bands and the size of each galaxy measured

by the Petrosian radius in the r band.

équitable en regard de l'analyse de l'image,

nous choisissons d'utiliser les magnitudes de

modèle dont la couleur rouge a été soustraite

dans les bandes g, r, i, z et la taille de chaque

galaxie mesurée par le rayon pétrosien dans la

bande r.

l'image, nous choisissons d'utiliser des modèles

redéfinis dont la couleur rouge a été soustraite

des bandes g, r, i, z et la taille de chaque galaxie

mesurée par le rayon pétrosien dans la bande r.

We randomly shuffle and subdivide the

64,647 galaxies into training, cross-

validation and test samples of size 33,167,

4047, and 27,433. In what follows we train

the machine learning architectures on the

training sample. We then vary the

hyperparameters of the machine learning

architecture and retrain a new model.

Pour les phases d’entraînement, de validation

croisée et de test, nous subdivisons de façon

aléatoire les 64647 galaxies en échantillons de

dimensions : 33167, 4047 et 27433. Puis, nous

entraînons les architectures d'apprentissage

automatique avec l'échantillon d’entraînement.

Nous choisissons ensuite de nouveaux

hyperparamètres pour l’architecture

d'apprentissage de la machine pour entraîner

un nouveau modèle.

Nous mélangeons aléatoirement les 64 647

galaxies que nous subdivisons en trois jeux de

données : 33 167 pour la phase d’apprentissage,

4 047 pour la phase de validation croisée et

27 433 pour la phase de test. Puis, nous

entraînons le DNN avec le jeu de données

d’apprentissage. Nous choisissons ensuite de

nouveaux hyperparamètres pour l’architecture

d’apprentissage automatique pour entraîner un

nouvel échantillon.

136

We select which is the best trained model

using the cross-validation sample, which is

completely independent from the training

sample. After choosing a final model, we

pass the test sample through the final model

to obtain machine learning redshift

predictions. These redshift distributions

produce a fair estimate of the ability of the

machine learning architecture to predict

redshifts for other galaxies which are

representative of the training sample.

Nous choisissons le modèle le mieux entraîné

en utilisant l'échantillon de validation croisée,

qui demeure complètement indépendant de

l'échantillon d’entraînement. Après avoir

sélectionné le modèle final, nous passons

l'échantillon test au crible du modèle final afin

d’obtenir les prédictions du redshift grâce à

l’apprentissage automatique. Ces distributions

en redshift permettent d’estimer le plus

précisément possible la capacité de prédiction

du redshift de l'architecture d'apprentissage

automatique appliquée à d'autres galaxies qui

sont représentatives de l'échantillon de

formation.

Nous choisissons le modèle le mieux entraîné en

utilisant l'échantillon de validation croisée, qui

demeure complètement indépendant de

l'échantillon d’entraînement. Après avoir

sélectionné le modèle final, nous passons

l'échantillon test à travers le modèle final afin

d’obtenir les prédictions du redshift grâce à

l’apprentissage automatique. Ces distributions

du redshift permettent d’estimer le plus

précisément possible la capacité de prédiction

du redshift par l'architecture d'apprentissage

automatique appliquée à d'autres galaxies qui

sont représentatives de l'échantillon

d’entraînement.

In Fig. 2 we show the spectroscopic redshift

number distribution of training (thick blue

La figure 2 comprend la valeur de la

distribution en redshift spectroscopique des

La figure 2 comprend la valeur de la distribution

du redshift spectroscopique dans les phases

137

line) and test (thin orange line) galaxies

used in this work. The stepped lines

represent the classification bins which have

a width of 0.01 in redshift.

phases d’entraînement (ligne bleue épaisse) et

de test (fine ligne orange) des galaxies étudiées

dans ce travail. Les lignes échelonnées

représentent les emplacements de distribution

d’une largeur de redshift de 0,01.

d’entraînement (ligne bleue épaisse) et de test

(fine ligne orange) correspondant aux galaxies

étudiées dans ce travail. Les courbes en escalier

représentent des emplacements de classification


3. Machine learning architectures 3. Architectures d'apprentissage automatique 3. Architectures d'apprentissage automatique

In this work we utilise the latest

developments in the field of machine

learning by using Deep Neural Networks

(DNNs). In particular we pass the entire

galaxy image into the DNN to obtain a

redshift estimate. As a comparison method

we use a

machine learning framework called boosted

trees which produce the current state of the

art photometric redshift estimates using

Notre méthode est à la pointe de

l'apprentissage automatique grâce à

l’utilisation de DNNs. Détaillons plus avant le

principe de l’architecture. Nous passons

l'image de galaxie complète dans le DNN afin

d’obtenir une estimation de redshift. Pour

effectuer la comparaison, nous employons un

système d'apprentissage automatique appelé

« boosted trees » (arbres de décision «

boostés »), qui produit des estimations de

Notre méthode est à la pointe de l'apprentissage

automatique grâce à l’utilisation de DNNs. Nous

passons l'image de galaxie complète dans les

DNNs afin d’obtenir une estimation de redshift.

Pour effectuer la comparaison, nous employons

un système d'apprentissage automatique appelé

« boosted trees » (arbres de décision «

boostés »), qui produit des estimations de

redshift photométrique reflétant l'état de l’art et

emploie des caractéristiques photométriques

138

standard photometric features. We describe

both architectures in more detail below.

redshift photométrique reflétant l'état de l’art et

emploie des propriétés photométriques

standard. Nous décrivons ces deux

architectures plus en détail ci-dessous.

standard. Nous décrivons ces deux architectures

plus en détail ci-dessous.

3.1. Deep neural networks 3.1. Deep neural networks (DNNs) 3.1. Réseaux de neurones profonds (DNNs)

Major advances in many areas of machine

learning have recently been produced using

DNNs. DNNs are based on standard neural

networks, which are themselves inspired by

the learning connections between biological

neurons and synapses in the human brain.

Neural networks have input layers, hidden

layers and output layers. For our purposes,

the input layers are the real valued

photometric feature vectors that are

measured for each galaxy.

Dans de nombreux domaines de

l'apprentissage automatique, nous devons les

progrès les plus importants à l’utilisation des

DNNs. L’architecture des DNNs est fondée sur

celle des réseaux de neurones classiques, qui

sont eux-mêmes inspirés du fonctionnement

des neurones et synapses du cerveau humain.

Les réseaux de neurones sont constitués de

couches d’entrée, de couches cachées et de

couches de sortie. Dans notre modèle, les

couches d’entrée sont les valeurs réelles des

Dans de nombreux domaines de l'apprentissage

automatique, nous devons les progrès les plus

importants à l’utilisation des DNNs.

L’architecture des DNNs est fondée sur celle des

réseaux de neurones classiques, qui sont eux-

mêmes inspirés du fonctionnement des neurones

et synapses du cerveau humain. Les réseaux de

neurones sont constitués de couches d’entrée, de

couches cachées et de couches de sortie. Dans

notre modèle, les couches d’entrée sont les

139

vecteurs photométriques mesurés pour chaque

galaxie.

valeurs réelles des vecteurs photométriques

mesurés pour chaque galaxie.

The output layer is the real valued floating

point prediction for the redshift. The hidden

layers are connected to the input layers and

they combine and weight the input values to

produce a new real valued number, which is

then passed to the output layer. The weights

of the connections between the layers are

updated during the training phase in order to

make the output value for each galaxy as

close as possible to the spectroscopic

redshift for that galaxy.

La couche de sortie correspond à l’estimation

de la valeur réelle du point flottant du redshift.

Les couches cachées sont connectées aux

couches d'entrée : elles combinent et pondèrent

les valeurs d'entrée pour produire une nouvelle

valeur réelle, qui est ensuite transmise à la

couche de sortie. Les poids qui relient les

couches sont mis à jour durant la phase

d’entraînement afin d’estimer, pour chaque

galaxie, la valeur de sortie la plus proche de

son redshift spectroscopique.

La couche de sortie correspond à l’estimation de

la valeur réelle du point flottant du redshift. Les

couches cachées sont connectées aux couches

d'entrée : elles combinent et pondèrent les

valeurs d'entrée pour produire une nouvelle

valeur réelle, qui est ensuite transmise à la

couche de sortie. Les poids qui relient les

couches sont mis à jour durant la phase

d’entraînement afin d’estimer, pour chaque

galaxie, la valeur de sortie la plus proche de son

redshift spectroscopique.

DNNs depart from these simple neural

networks by constructing many hidden

layers, with many multiple connected

Les réseaux de neurones profonds ont été créés

sur la base des réseaux de neurones classiques,

mais de multiples couches cachées ont été

Les réseaux de neurones profonds ont été créés

sur la base des réseaux de neurones classiques,

mais de multiples couches cachées ont été

140

neurons per layer. DNNs can also accept

images as input layers using an architecture

called Convolutional Neural Networks

(Lecun and Bengio, 1995), instead of

vectors of real valued numbers. The

Convolutional Neural Networks retain

information about the physical location of

pixels with respect to other pixels and are

used efficiently in combination with the

Max Out algorithm (Goodfellow et al.,

0000).

ajoutées à leur architecture. Ainsi, pour chaque

couche, plusieurs neurones sont connectés. Les

DNNs peuvent accepter des images dans la

couche d'entrée, en utilisant une architecture

appelée réseau de neurones convolutifs (ou

CNN, Convolutional Neural Networks en

anglais) (Lecun et Bengio, 1995), au lieu de

vecteurs de valeurs réelles. Les réseaux de

neurones convolutifs retiennent des

informations sur l'emplacement physique des

pixels par rapport à d'autres pixels et sont

employés de manière efficace en combinaison

avec l'algorithme Max Out (Goodfellow et al.,

0000).

ajoutées à leur architecture. Ainsi, pour chaque

couche, plusieurs neurones sont connectés. Les

DNNs peuvent accepter des images dans la

couche d'entrée, en utilisant une architecture

appelée réseau de neurones à convolution (ou

CNNs, Convolutional Neural Networks en

anglais) (Lecun et Bengio, 1995), au lieu de

vecteurs de valeurs réelles. Les réseaux de

neurones à convolution retiennent des

informations sur l'emplacement physique des

pixels par rapport à d'autres pixels et sont

employés de manière efficace en combinaison

avec l'algorithme Max Out (Goodfellow et al.,

0000).

The power of DNNs comes from recent

advances in how the connections between

Si les DNNs sont si puissants, c’est grâce aux

progrès récents concernant la manière dont

Si les DNNs sont si puissants, c’est grâce aux

progrès récents concernant la manière dont

141

the many millions of neurons are trained.

Previously the many millions of

connections would quickly overfit even

large training sets, and thereby lose the

DNNs

predictive power. One major advancement

is the Dropout (Hinton et al., 0000)

technique, which ignores a random number

of neurons during each training round.

s’effectue l’entraînement entre les connexions

des millions de neurones. Jusque-là, ces

millions de connexions pouvaient rapidement

induire un sur-apprentissage sur de grands jeux

de données d’apprentissage, ce qui diminuait

le pouvoir prédictif des DNNs. La technique

Dropout (Hinton et al., 0000) constitue une

avancée majeur, puisqu’à chaque série

d’entraînement, elle permet de ne pas tenir

compte d’un nombre aléatoire de neurones.

s’effectue l’entraînement entre les connexions

des millions de neurones. Jusque-là, ces millions

de connexions pouvaient rapidement induire un

sur-apprentissage sur de grands ensembles

d’entraînement, ce qui diminuait le pouvoir

prédictif des DNNs. La technique Dropout

(Hinton et al., 0000) constitue une avancée

majeure : à chaque série d’entraînement, elle

permet de ne pas tenir compte d’un nombre

aléatoire de neurones.

This effectively results in each training

round learning a ‘weak model’, which is

then combined to produce a final model

with a lot of predictive power, and a lower

chance of overfitting. Weak models have

low predictive power by themselves,

Ainsi, le DNN est entraîné sur un « modèle

faible » et sur plusieurs séries. Ces modèles

faibles peuvent être combinés afin de produire

un modèle final possédant une bonne

puissance prédictive, ce qui permet de

diminuer le phénomène de sur-apprentissage.

Ainsi, le DNN est entraîné sur un « modèle

faible » et sur plusieurs séries. Ces modèles

faibles peuvent être combinés afin de produire

un modèle final possédant de bonnes capacités

prédictives, ce qui permet de diminuer le

phénomène de sur-apprentissage. Certes, les

142

however the predictions of many weak

models can be weighted and combined to

produce models with much stronger

predictive power.

Certes, les modèles faibles ont une faible

puissance prédictive, mais les prédictions

cumulées de plusieurs modèles faibles peuvent

être pondérées et combinées afin de produire

des modèles disposant d’une meilleure

puissance prédictive.

modèles faibles ont une faible puissance

prédictive, mais les prédictions cumulées de

plusieurs modèles faibles peuvent être

pondérées et combinées afin de produire des

modèles disposant d’une meilleure puissance

prédictive.

To further ensure that the DNN, does not

overfit we apply data augmentation

techniques to produce many training

examples for each of the original input

images. We apply random image flipping

and rotations, and randomly select a sub

patch of size 60 × 60 pixels to pass into the

DNN. The image rotations are performed in

discreet 90° intervals. We use these

methods to increase the training sample size

Pour éviter le phénomène de sur-

apprentissage, nous appliquons des techniques

d’augmentation de données afin de produire,

pour chacune des images originales d’entrée,

de nombreux exemples d’entraînement. Nous

appliquons des retournements et des rotations

aléatoires aux images, en sélectionnant

aléatoirement un sous-jeu de taille 60 × 60

pixels, que nous fournissons en entrée au

DNN. Les rotations d’images sont effectuées

Pour éviter le phénomène de sur-apprentissage,

nous appliquons des techniques d’augmentation

de données afin de produire, pour chacune des

images originales d’entrée, de nombreux

exemples d’entraînement. Nous appliquons des

retournements et des rotations aléatoires aux

images, en sélectionnant aléatoirement un sous-

jeu de taille 60 × 60 pixels, que nous fournissons

en entrée aux DNNs. Les rotations d’images

sont effectuées en intervalles discrets de 90°.

143

by a factor of 80. We do not currently apply

whitening techniques to add noise to the

images, which can further help with

overfitting.

en intervalles discrets de 90°. Nous utilisons

ces méthodes pour augmenter la taille de

l’échantillon d’entraînement d’un facteur de

80. Nous n’appliquons pas, pour le moment, de

techniques visant à blanchir le bruit, qui

pourraient par la suite diminuer le sur-

apprentissage.

Nous utilisons ces méthodes pour augmenter la

taille de l’échantillon d’entraînement d’un

facteur de 80. Nous n’appliquons pas, pour le

moment, de techniques de blanchiment de bruit,

qui pourraient par la suite diminuer le sur-

apprentissage.

We choose to use a base DNN architecture

inspired by Krizhevsky et al. (2012) that

obtains state of the art results on the

ImageNet dataset (Russakovsky et al.,

0000). We modify the base DNN to accept

images of dimension 4 × 60 × 60 and which

produces an output layer with 94

classification bins, which correspond to

redshift slices of width 0.01. We have also

Nous choisissons d’utiliser une architecture

DNN inspirée par Krizhevsky et al. (2012), qui

obtient des résultats à la pointe sur le jeu de

données ImageNet (Russakovsky et al., 0000).

Nous modifions l’architecture pour qu’elle

accepte des images de dimension 4 × 60 × 60

et produise une couche de sortie comprenant

94 emplacements de classification, qui

correspondent à des coupes de redshift d’une

Nous choisissons d’utiliser une architecture

DNN qui s’inspire des travaux de Krizhevsky et

al. (2012) et obtenons des résultats à la pointe

sur le jeu de données ImageNet (Russakovsky et

al., 0000). Nous modifions l’architecture pour

qu’elle accepte des images de dimension

4×60×60 et produise une couche de sortie

comprenant 94 emplacements de classification,

correspondant chacun à des coupes de redshift

144

explored a limited range of DNN

architectures.

largeur de 0,01. Nous avons également exploré

un éventail restreint d'architectures DNNs.

d’une largeur de 0,01. Nous avons également

exploré un éventail restreint d'architectures

DNNs.

For example we find that using galaxy

images of dimensions 4×32×32 reduces the

performance by more than 30%, and

increasing the dropout fraction from 0.4 to

0.9 we find that a dropout fraction of 0.6

produces slightly higher accuracy on the

cross-validation. In future work we will

provide a more detailed analysis of the

effect of varying the hyper-parameter

choices for the DNN architecture.

Par exemple, nous notons que l'utilisation

d'images de galaxie de dimensions 4 × 32 × 32

réduit les performances de plus de 30 % et

augmente la fraction de dropout de 0,4 à 0,9.

Nous observons que grâce à la technique du

dropout, une fraction de 0,6 améliore

légèrement la précision lors de la validation

croisée. Dans nos futurs travaux, nous ferons

une analyse plus détaillée des effets de la

variation des options d’hyperparamètres de

l’architecture DNN.

Par exemple, nous notons que l'utilisation

d'images de galaxie de dimensions 4×32×32

réduit les performances de plus de 30 % et

augmente la fraction de dropout de 0,4 à 0,9.

Nous observons que grâce à la technique du

dropout, une fraction de 0,6 améliore légèrement

la précision lors de la validation croisée. Dans

nos futurs travaux, nous ferons une analyse plus

détaillée des effets de la variation des options

d’hyperparamètres de l’architecture DNN.

145

We describe the full DNN architecture in

more detail in the appendix but note here

that it contains some 23 layers. In this work

we use the package GraphLab (Low et al.,

0000) as the main tool for building and

training DNNs.

Nous décrivons l'architecture complète du

DNN plus en détail dans l'annexe, mais notons

ici qu'elle contient environ 23 couches. Pour ce

travail, nous utilisons le package GraphLab

(Low et al., 0000) comme principal outil de

construction et d’entraînement des DNNs.

Nous décrivons l'architecture complète du DNN

plus en détail dans l'annexe, mais notons ici

qu'elle contient environ 23 couches. Pour ce

travail, nous utilisons le package GraphLab

(Low et al., 0000) comme principal outil de

construction et d’entraînement des DNNs.

We show an illustration of the ImageNet

inspired DNN with Convolutional Neural

Network layers in the third row of Fig. 1

which is an altered version of an image

found on

http://deeplearning.net/tutorial/lenet.html.

The modified galaxy images (second row

panels) are passed into the ImageNet DNN

(third row) to predict the galaxy redshift bin

(final row) in a classification analysis. In

Une illustration du DNN et du réseau de

neurones convolutionnel, inspirée par

ImageNet apparaît à la troisième rangée de la

Fig. 1, il s’agit d’une version modifiée d'une

image trouvée sur

http://deeplearning.net/tutorial/lenet.html. Les

images de galaxie modifiées (images figurant

sur la deuxième rangée) sont transmises au

DNN ImageNet (troisième rangée) pour

prédire le redshift de la galaxie (dernière

Une illustration du DNN et du réseau de

neurones à convolution, inspirée par ImageNet

apparaît à la troisième ligne de la Fig. 1, il s’agit

d’une version modifiée d'une image trouvée sur

http://deeplearning.net/tutorial/lenet.html. Les

images de galaxie modifiées (images figurant

sur la deuxième ligne) sont transmises au DNN

ImageNet (troisième ligne) pour prédire le

groupement des données pour le redshift de

galaxies (dernière ligne) lors d’une analyse de

146

Fig. 2 we present the distributions of the

training and test data per redshift

classification bin.

rangée) lors d’une analyse de classification.

Dans la figure 2, nous présentons les

distributions des données d’entraînement et de

test pour chaque emplacement de redshift.

classification. Dans la figure 2, nous présentons

les distributions des données d’entraînement et

de test pour chaque emplacement de redshift.

[…] […]

3.2. Tree methods 3.2. Arbres de décision 3.2. Arbres de décision

Once a galaxy has been observed and its

photometric properties measured, it can be

placed along with other galaxies into a high

Lorsqu’une galaxie a été observée que ses

propriétés photométriques ont été mesurées,

elle peut être placée avec d’autres galaxies

Lorsqu’une galaxie a été observée et ses

caractéristiques photométriques mesurées, elle

peut être regroupée avec d’autres galaxies dans

147

dimensional scatter diagram in which each

dimension corresponds to a chosen input

feature. Decision trees are machine learning

architectures which subdivide this high

dimensional space into high dimensional

boxes.

dans un diagramme de dispersion haute

dimension où chaque dimension correspond à

une propriété d’entrée donnée. Les arbres de

décision sont des architectures d’apprentissage

automatique qui divisent cet espace haute

dimension en boîtes hautes dimensions.

un diagramme de dispersion haute dimension où

chaque dimension correspond à une

caractéristique d’entrée donnée. Les arbres de

décision sont des architectures d’apprentissage

automatique qui divisent cet espace haute

dimension en boîtes haute dimension.

Each new split, or box, is chosen during the

training phase to maximise the similarity of

the spectroscopic redshifts for all galaxies

which fall within the same box. Once the

space has been suitably subdivided the

training ends and each box is assigned a

redshift estimate which is the mean value of

all remaining galaxies within the box. Test

data is then placed into the high dimensional

space, and the machine learning redshift

Chaque boîte est choisie durant la phase

d’entraînement pour maximiser la similarité

des redshifts spectroscopiques entre les

galaxies réunies dans une même boîte. Une

fois l’espace correctement divisé, la phase

d’entraînement s’achève et une estimation de

redshift est assignée à chaque boîte, celle-ci

correspondant à la valeur moyenne de toutes

les galaxies restant dans la boîte. Les données

de test sont ensuite placées dans l’espace haute

Chaque boîte est choisie durant la phase

d’entraînement pour maximiser la similarité des

redshifts spectroscopiques des galaxies réunies

dans une même boîte. Une fois l’espace

correctement divisé, la phase d’entraînement

s’achève et une estimation de redshift est

assignée à chaque boîte, celle-ci correspondant

à la valeur moyenne de toutes les galaxies

restant dans la boîte. Les données de test sont

ensuite placées dans un espace haute dimension,

148

estimate is assigned to the test data from the

value of the hyperbox which contains it.

dimension, et l’estimation du redshift produite

par le DNN est attribuée aux données de test à

partir de la valeur de l’hyperboîte qui les

contient.

et l’estimation du redshift produite par le DNN

est attribuée aux données de test à partir de la

valeur de l’hyperboîte qui les contient.

One may think of each individual decision

tree, or configuration of hyper-boxes, as

learning a weak model, and the power of

tree based methods comes from combining

the results of many weak models to produce

a final model with strong predictive power

and a low chance of over fitting.

En somme, chaque arbre de décision et

configuration d’hyperboîte est entraînée sur un

modèle faible. Le pouvoir prédictif des

méthodes employant des arbres de décision

provient de la combinaison des résultats de

plusieurs modèles faibles et génère un modèle

final bénéficiant d’un fort pouvoir prédictif et

de faibles risques de sur-apprentissage.

En somme, chaque arbre de décision et

configuration d’hyperboîte est entraîné sur un

modèle faible. Le pouvoir prédictif des

méthodes employant des arbres de décision

provient de la combinaison des résultats de

plusieurs modèles faibles et génère un modèle

final bénéficiant d’un fort pouvoir prédictif et de

faibles risques de sur-apprentissage.

There exist many techniques to choose how

the individual trees should be grown, and

how the trees should be combined, one of

De nombreuses techniques sont dédiées aux

choix de construction des arbres et aux

différentes combinaisons : l’une d’entre elles

De nombreuses techniques sont dédiées aux

choix de construction des arbres et aux

différentes combinaisons : l’une d’entre elles se

149

which is called Adaptive boosting, or

AdaBoost (Freund and Schapire, 1997;

Drucker, 1997).

se nomme Adaptive boosting, ou AdaBoost

(Freund and Schapire, 1997; Drucker, 1997).

nomme Adaptive boosting, ou AdaBoost

(Freund and Schapire, 1997; Drucker, 1997).

[…] […]

In what follows we refer to this standard

machine learning architecture using the

magnitudes, colours and a r band Petrosian

radius as ‘AdaBoost’.

Dans les développements qui suivent, nous

appellerons « AdaBoost » notre architecture

standard d’apprentissage automatique

employant les magnitudes, les couleurs, et une

bande r de rayon pétrosien.

Dans les développements qui suivent, nous

appellerons « AdaBoost » notre architecture

standard d’apprentissage automatique

employant les magnitudes, les couleurs, et une

bande r de rayon pétrosien.

4. Results 4. Résultats 4. Résultats

We train both of the machine learning

architectures (hereafter MLA) on the same

sample of training galaxies, and determine

how well each MLA has been trained by

passing the cross-validation sample through

Nous entraînons les deux architectures

d'apprentissage automatique (que nous

appellerons dorénavant MLA) sur le même

échantillon de galaxies d’entraînement, et nous

déterminons le score de chaque MLA en

Nous entraînons les deux architectures

d'apprentissage automatique (que nous

appellerons dorénavant MLA) sur le même

échantillon de galaxies d’entraînement, et nous

déterminons le score de chaque MLA en passant

150

the learnt machine. For DNNs we use the

full galaxy image as an input, and for

AdaBoost we use the measured magnitudes,

colours and radii.

passant l’échantillon de validation croisée dans

la machine entraînée. Pour les DNNs, nous

utilisons l'image de la galaxie complète comme

entrée, et pour AdaBoost nous utilisons les

magnitudes, les couleurs et rayons pétrosiens

mesurés.

l’échantillon de validation croisée dans la

machine entraînée. Pour les DNNs, nous

utilisons l'image de la galaxie complète comme

entrée, et pour AdaBoost nous utilisons les

magnitudes, les couleurs et rayons pétrosiens

mesurés.

The output of AdaBoost is the real valued

number zML, that corresponds to the

photometric redshift. The output of the

DNN is the redshift bin that the classified

galaxy is most likely to have. The DNN

randomly extracts a sub image of size 4 ×

60 × 60 from the original image of size 4 ×

72 × 72 and therefore can produce a

AdaBoost produit en sortie la valeur réelle

« zML » correspondant au redshift

photométrique. Le DNN fournit en sortie

l’emplacement de redshift que la galaxie

classée et la plus susceptible de produire. Le

DNN extrait aléatoirement une sous-image de

dimension 4 × 60 × 60 à partir de l'image

originale de dimension 4 × 72 × 72 et peut donc

faire une prédiction de redshift différente pour

AdaBoost produit en sortie la valeur réelle

« zML » correspondant au redshift

photométrique. Le DNN fournit en sortie

l’emplacement de redshift que la galaxie classée

est la plus susceptible de produire. Le DNN

extrait aléatoirement une sous-image de

dimension 4 × 60 × 60 à partir de l'image

originale de dimension 4 × 72 × 72 et peut donc

faire une prédiction de redshift différente pour

151

different redshift prediction for each

random sampling of the same image.

chaque échantillonnage aléatoire de la même

image.

chaque échantillonnage aléatoire de la même

image.

We therefore pass each galaxy image into

the final DNN one hundred times to produce

a redshift classification distribution, which

we then convert to a redshift vector. We

calculate the mean and standard deviation

of this redshift vector and label the mean

redshift for this galaxy as zML. We note

that if we choose to use the median instead

of the

mean as the redshift estimate, the final

statistics vary very little.

Nous passons donc chaque image de galaxie

dans le dernier DNN cent fois, pour produire

une distribution de classification de redshift,

que nous convertissons ensuite en vecteur

redshift. Nous calculons la moyenne et l'écart-

type de ce vecteur de redshift et nous

étiquetons le redshift moyen pour cette galaxie

avec le marqueur zML. Nous remarquons que

si nous utilisons la médiane au lieu de la

moyenne pour l'estimation du redshift, les

statistiques finales varient très peu.

Nous passons donc chaque image de galaxie

dans le dernier DNN cent fois, pour produire une

distribution de classification de redshift, que

nous convertissons ensuite en vecteur redshift.

Nous calculons la moyenne et l'écart type de ce

vecteur de redshift et nous étiquetons le redshift

moyen de cette galaxie du marqueur zML. Nous

remarquons que si nous utilisons la médiane au

lieu de la moyenne pour l'estimation du redshift,

les statistiques finales varient très peu.

We construct the residual vector Δz = zML

− zspec which is the difference between the

Nous construisons le vecteur résiduel

Δ z = zML – zspec, soit la différence entre le

Nous construisons le vecteur résiduel

Δ z = zML – zspec, soit la différence entre le

152

machine learning redshift and the

spectroscopic redshift. We measure the

following metrics: μ, σ68, σ95,

corresponding to the median value of Δz ,

and the values corresponding to the 68%

and 95% spread of Δz . We additionally

measure the ‘outlier rate’ defined as fraction

of galaxies for which |Δz/(1+zspec )| > 0.15.

redshift estimé par l’apprentissage

automatique et le redshift spectroscopique.

Nous mesurons les paramètres suivants: μ,

σ68, σ95, qui correspondent à la valeur

médiane de ΔZ, et les valeurs correspondant à

la propagation de 68 % et 95 % de ΔZ. Nous

mesurons également le "taux d’anomalie"

défini comme la fraction de galaxies pour

lesquelles |Δz/(1+zspec )| > 0.15.

redshift estimé par l’apprentissage automatique

et le redshift spectroscopique. Nous mesurons

les paramètres suivants : μ, σ68, σ95, qui

correspondent à la valeur médiane de ΔZ, et les

valeurs correspondant à la propagation de 68 %

et 95 % de ΔZ. Nous mesurons également le

"taux d’anomalie" défini comme la fraction de

galaxies pour lesquelles |Δz/(1+zspec )| > 0.15.

If the residual distribution were described

well by a Gaussian distribution, the choice

of σ68 would correspond to the standard

deviation, and μ would be equivalent to the

mean. However most photometric redshift

residual distributions have longer tails and

Si la distribution résiduelle avait bien été

décrite par une distribution de type gaussien, le

choix de σ68 correspondrait à l'écart type, et μ

serait égal à la moyenne. Cependant, la plupart

des distributions résiduelles du redshift

photométrique présentent de plus longue

traînes et des sommets plus aigus qu’une

Si la distribution résiduelle avait bien été décrite

par une distribution de type gaussien, le choix de

σ68 correspondrait à l'écart type, et μ serait égal

à la moyenne. Cependant, la plupart des

distributions résiduelles du redshift

photométrique présentent de plus longues

traînes et des pics plus serrés qu’une distribution

153

are more peaked than a Gaussian

distribution and therefore the standard

deviation is not representative of the

dispersion of the data.

distribution de type gaussien, l'écart type n'est

donc pas représentatif de la dispersion des

données.

de type gaussien, l'écart type n'est donc pas

représentatif de la dispersion des données.

For AdaBoost we randomly explore the

hyper-parameter space 500 times and select

the trained machine with the lowest value of

σ68 as measured on the cross-validation set.

Similarly, we select the final DNN from the

handful of models that we explored, to be

the model with the lowest value of σ68 as

measured on the cross-validation set.

Pour AdaBoost, nous explorons 500 fois

aléatoirement l'espace d’hyperparamètres et

choisissons la machine entraînée dont la valeur

de σ68 mesurée sur le jeu de validation croisée

est la plus basse. De même, nous définissons

comme modèle final, le DNN - parmi les

quelques modèles que nous avons explorés –

dont la valeur de σ68 est la plus basse du jeu

de validation croisée.

Pour AdaBoost, nous explorons 500 fois

aléatoirement l'espace d’hyperparamètres et

choisissons la machine entraînée dont la valeur

mesurée sur le jeu de validation croisée est la

plus basse, soit σ68. De même, nous

sélectionnons, parmi les quelques modèles de

DNNs que nous avons explorés, celui dont la

valeur de σ68 est la plus basse de l’échantillon

de validation croisée.

After deciding upon a final model for both

MLAs we pass the sample of test galaxies,

Une fois la décision du modèle final prise pour

les deux MLAs, nous passons l'échantillon de

Une fois la décision du modèle final prise pour

les deux MLA, nous passons l'échantillon de

154

which is not used during training or model

selection phase, through each MLA to

obtain a final set of machine learning

photometric redshifts. This represents an

unbiased estimate of the ability of the

MLAs to produce redshift estimates for

other galaxies, however these galaxies must

be similar to, or representative of, the

training sample. We again construct the

residual redshift vector and measure the

same statistics as before.

galaxies test - qui n'est ni utilisé durant la phase

d’entraînement ni durant la phase de sélection

du modèle - dans chaque MLA, afin d’obtenir

un jeu final de redshifts photométriques par

apprentissage automatique. Ce que nous

obtenons est donc une estimation sans biais de

la capacité des MLAs à réaliser des estimations

de redshifts pour d'autres galaxies, cependant

ces galaxies doivent être semblables à celles de

l'échantillon d’entraînement. Nous

construisons de nouveau le vecteur résiduel de

redshift et nous mesurons les mêmes

statistiques qu'auparavant.

galaxies test – qui n'est ni utilisé durant la phase

d’entraînement ni durant la phase de sélection

du modèle – dans chaque MLA, afin d’obtenir

un jeu final de redshifts photométriques par

apprentissage automatique. Ce que nous

obtenons est donc une estimation sans biais de

la capacité des MLA à réaliser des estimations

de redshifts pour d'autres galaxies, cependant

ces galaxies doivent être semblables à celles de

l'échantillon d’entraînement. Nous construisons

de nouveau le vecteur résiduel de redshift et

nous mesurons les mêmes statistiques

qu'auparavant.

[…] […] […]

5. Discussion and conclusions 5. Discussion et conclusion 5. Discussion et conclusion

155

Robust photometric redshift estimates are a

critical component of maximising the

cosmological information content available

from current and future photometric galaxy

surveys.

Disposer d’estimations de redshifts

photométriques robustes est un élément

essentiel, qui permet de maximiser les données

cosmologiques disponibles grâce aux relevés

galactiques actuels et à venir.

Disposer d’estimations de redshifts

photométriques robustes est un élément

essentiel, qui permet de maximiser les données

cosmologiques disponibles grâce aux relevés

galactiques actuels et à venir.

Indeed, recent work (Rau et al., 2015) show

how the mis-estimation of the galaxy

redshift distribution for a sample of galaxies

produces biases in many correlation

function analyses, and other work

shows how these biases effect cosmology

(e.g., Bonnett et al., 0000).

De récents travaux (Rau et al., 2015)

démontrent qu’une mauvaise estimation de la

distribution du redshift d’une galaxie pour un

échantillon de galaxies engendre des

répercussions sur de nombreuses analyses de

fonctions de corrélation, et d’autres travaux

montrent les effets de ces biais sur la

cosmologie (p. ex. Parti et al., 0000).

Les travaux récents (Rau et al., 2015) montrent

qu’une mauvaise estimation de la distribution du

redshift pour un échantillon de galaxies induit

des biais sur de nombreuses analyses de

fonctions de corrélation, et d’autres travaux

montrent les effets de ces biais sur la cosmologie

(par ex. Parti et al., 0000).

Until now photometric redshifts have been

estimated by first extracting quantities from

Jusqu’à présent, pour estimer le redshift

photométriques, la première étape était

Jusqu’à présent, pour estimer le redshift

photométriques, les valeurs étaient extraites

156

the galaxy image which are deemed salient

by the user. The extracted quantities are

normally fluxes within a chosen aperture, or

radii describing some aspect of the

galaxy profile.

l’extraction de valeurs à partir d’image de

galaxies, en fonction de critères jugés

représentatifs par l’utilisateur. En règle

générale, les valeurs extraites sont des flux qui

dépendent de la taille de l’ouverture

photométrique choisie, ou des rayons formant

l’aspect du profil de la galaxie.

d’images de galaxies en fonction de critères

jugés représentatifs par l’utilisateur. En règle

générale, les valeurs extraites sont des flux qui

dépendent de la taille de l’ouverture

photométrique choisie, ou des rayons formant

l’aspect du profil de la galaxie.

The extracted quantities are then either

compared

to theoretical models of galaxy evolution,

for example when using template based

methods, or are used to learn the mapping

between the measured quantities and the

spectroscopic redshift for the

Concernant les quantités extraites, elles

peuvent servir : soit à faire une comparaison

avec les modèles théoriques de l’évolution des

galaxies, par exemple pour les méthodes

utilisant des modèles ; soit elles peuvent être

utilisées pour déduire la corrélation entre les

valeurs mesurées et le redshift

spectroscopique, pour un sous-jeu de données

dont les redshift sont connus, par exemple dans

Les quantités extraites peuvent soit être

comparées aux modèles théoriques de

l’évolution des galaxies, par exemple pour les

méthodes utilisant des modèles, soit être

utilisées pour déduire la relation entre les

valeurs mesurées et le redshift spectroscopique,

pour un sous-échantillon de données dont les

redshifts sont connus, par exemple en employant

157

subset of the data which already has

redshifts, for example when using standard

machine learning methods.

le cas de méthodes classiques d’apprentissage

automatique.

des méthodes classiques d’apprentissage

automatique.

In this work we propose a completely new

method to estimate photometric redshifts by

passing the full galaxy imaging into a Deep

Neural Network (DNNs). The main

advantage of this method is that the user

does not prejudice the choice of measured

properties extracted from the galaxy image

a priori.

Pour ce travail, nous proposons une méthode

totalement nouvelle d’estimation des redshifts

photométriques, qui consiste à passer l’image

de la galaxie complète dans un DNN. Le

principal avantage de cette méthode est que

l’utilisateur n’ajoute pas de biais durant la

phase de sélection des propriétés mesurées

extraites de l’image de galaxie a priori.

Pour ce travail, nous proposons une méthode

totalement nouvelle d’estimation des redshifts

photométriques, qui consiste à passer l’image de

la galaxie complète dans un DNN. Le principal

avantage de cette méthode est que l’utilisateur

ne porte pas préjudice à l’analyse durant la phase

de sélection des propriétés mesurées extraites de

l’image de galaxie a priori.

One can view this new approach as the most

extreme form of feature importance

possible (Hoyle et al., 2015). Feature

importance ranks the chosen properties (or

Cette approche pourrait être considérée

comme le cas le plus extrême de l’importance

des propriétés (Hoyle et al., 2015).

L’importance des propriétés classe les

Cette approche peut être considérée comme le

cas le plus extrême de classification des

éléments caractéristiques par ordre

d’importance (Hoyle et al., 2015). Cette

158

features) of the galaxy by their predictive

power for the task at hand. In this approach

features are not chosen a priori, but learnt

during training.

propriétés (ou les caractéristiques)

sélectionnées pour l’étude de la galaxie en

fonction de leur pouvoir prédictif pour la tâche

à accomplir. Dans notre approche, les

propriétés ne sont pas choisies a priori, mais

apprises durant la phase d’entraînement.

classification des caractéristiques de galaxies

s’effectue en fonction de leur pouvoir prédictif

pour la réalisation d’une tâche cible. Dans notre

approche, les caractéristiques ne sont pas

choisies a priori, mais apprises durant la phase

d’entraînement.

[…] […] […]

Astronomy and Computing 16 (2016) 34–40

Contents lists available at ScienceDirect

Astronomy and Computing

journal homepage: www.elsevier.com/locate/ascom

Full length article

Measuring photometric redshifts using galaxy images and DeepNeural NetworksB. HoyleUniversitaets-Sternwarte, Fakultaet fuer Physik, Ludwig-Maximilians Universitaet Muenchen, Scheinerstr. 1, D-81679, Muenchen, GermanyExcellence Cluster Universe, Boltzmannstr. 2, D-85748, Garching, Germany

a r t i c l e i n f o

Article history:Received 27 April 2015Accepted 30 March 2016Available online 26 April 2016

Keywords:AstronomyMachine learningCosmology

a b s t r a c t

We propose a newmethod to estimate the photometric redshift of galaxies by using the full galaxy imagein eachmeasured band. This method draws from the latest techniques and advances in machine learning,in particular Deep Neural Networks. We pass the entire multi-band galaxy image into the machinelearning architecture to obtain a redshift estimate that is competitive, in terms of the measured pointpredictionmetrics, with the best existing standardmachine learning techniques. The standard techniquesestimate redshifts using post-processed features, such as magnitudes and colours, which are extractedfrom the galaxy images and are deemed to be salient by the user. This newmethod removes the user fromthe photometric redshift estimation pipeline. However we do note that Deep Neural Networks requiremany orders of magnitude more computing resources than standard machine learning architectures,and as such are only tractable for making predictions on datasets of size ≤50k before implementingparallelisation techniques.

© 2016 Elsevier B.V. All rights reserved.

1. Introduction

To maximise the cosmological information available from cur-rent and upcoming large scale galaxy surveys, one requires robustdistance estimates to many galaxies. The distances to galaxies areinferred by the distance-redshift relation which relates how thegalaxy light is stretched due to the expansion of the Universe as ittravels from the galaxy to our detectors. This stretching leads to anenergy loss of the photon and a shift towards redder wavelengths,which is known as the redshift. The further away the galaxy is fromus, the longer the light has been passing through the expandingUniverse, and the more it becomes redshifted.

Obtaining very accurate spectroscopic redshifts, which mea-sures the redshifted spectral absorption and emission lines, re-quires very long exposure times on dedicated spectrographs andis typically only performed for a small sub-sample of all galaxies.Conversely, the measurement of multi-band photometric proper-ties of galaxies ismuch cheaper. The compromise is then to attemptto extract less accurate redshift information from photometricallymeasured properties, but applied to a much larger galaxy sample.

Photometric redshift estimates are obtained from eithertemplate fitting techniques, machine learning techniques, or some

E-mail addresses: [email protected], [email protected].

hybrid of the two for example using data augmentation (Hoyleet al., 2015). The template methods are parametric techniques andare constructed from templates of the Spectral Energy Distributionof the galaxies. Some templates encode our knowledge of stellarpopulation models which result in predictions for the evolutionof galaxy magnitudes and colours. The parametric encoding ofthe complex stellar physics coupled with the uncertainty ofthe parameters of the stellar population models, combine toproduce redshift estimates which are little better than manynon-parametric techniques. See e.g., Hildebrandt et al. (2010),Dahlen (2013) for an overview of different techniques. Unlike non-parametric and machine learning techniques, the aforementionedtemplate methods do not rely on training samples of galaxies,which must be assumed to be representative of the final sample ofgalaxies for which redshift estimates are required. Other templatemethods are generated either completely from, or in combinationwith, empirical data, however these templates both require tuning,and also rely upon representative training samples.

When an unbiased training sample is available, machinelearning methods offer an alternative to template methods toestimate galaxy redshifts. The ‘machine architecture’ determineshow to best manipulate the photometric galaxy input properties(or ‘features’) to produce amachine learning redshift. Themachineattempts to learn the most effective manipulations to minimisethe difference between the spectroscopic redshift and themachinelearning redshift of the training sample.

http://dx.doi.org/10.1016/j.ascom.2016.03.0062213-1337/© 2016 Elsevier B.V. All rights reserved.

B. Hoyle / Astronomy and Computing 16 (2016) 34–40 35

The field of machine learning for photometric redshift anal-ysis has been developing since Tagliaferri et al. (2003) used ar-tificial Neural Networks (aNNs). A plethora of machine learningarchitectures, including tree based methods, have been applied tothe problem of point prediction redshift estimation (Sánchez andPhotometric, 2014) or to estimate the full redshift probability dis-tribution function (Gerdes et al., 2010; Carrasco Kind and Brunner,2013; Bonnett, 2015; Rau et al., 2015). Machine learning architec-tures have also had success in other fields of astronomy such asgalaxymorphology identification, and star &quasar separation (La-hav, 1997; Yeche et al., 0000).

The use of Deep Neural Networks (hereafter DNN) as the ma-chine learning architecture has only recently been applied to prob-lems in astrophysics. For example Dieleman et al. (2015) taughta DNN to replicate the detailed morphological classifications ob-tained by the citizen scientists answering questions within theGalaxy Zoo 2 project (Willett et al., 2013) and obtained an accu-racy of up to 99% on some classification questions, and (Hála, 2014)examined the problem of spectral classification from Sloan DigitalSky Survey (Ahn et al., 2014) (hereafter SDSS) spectra.

Within the standard machine learning approach the choiceof which photometric input features to train the machinearchitecture, from the full list of possible photometric features, isstill left to the discretion of the user. The current author recentlyperformed an analysis of ‘feature importance’ for photometricredshifts, which uses machine learning techniques to determinewhich of themany possible photometric features produce themostpredictive power (Hoyle et al., 2015). The technique described inthis paper is the most extreme example of feature importancepossible.Weno longer need to impose our prior beliefs uponwhichderived photometric features produce the best redshift predictivepower, or even measure the photometric properties. By passingthe entire galaxy image into the Deep Neural Network machinelearning framework we completely remove the user from thephotometric redshift estimation process.

Furthermore in order to use either the template or standardma-chine learning techniques to estimate redshifts, the magnitudes,colours, and other properties of the galaxies must be measured.The analysis presented in this paper, which uses the full image ofthe galaxy partially removes this requirement. Howeverwe do stillcurrently need the galaxy to have been detected so that we cangenerate a postage stamp image.

The outline of the paper is as follows. In Section 2 we describethe galaxy images and the pre-processing steps to prepare theimages for the Deep Neural Networks. We then introduce bothof the machine learning architectures in Section 3, and presentthe analysis and results in Section 4. We conclude and discuss inSection 5.

2. Galaxy data and images

The galaxy data in this study are drawn from the SDSS Data Re-lease 10 (Ahn et al., 2014). The SDSS I–III uses a 2.4 m telescope atApache Point Observatory in New Mexico and has CCD wide fieldphotometry in 5 bands (Gunn et al., 2006; Smith et al., 2002), andan expansive spectroscopic follow up programme (Eisenstein andD.J., 2011) covering π steradians of the northern sky. The SDSS col-laboration has obtained 2 million galaxy spectra using dual fibre-fed spectrographs. An automated photometric pipeline performsobject classification to amagnitude of r ≈ 22 andmeasures photo-metric properties of more than 100 million galaxies. The completedata sample, and many derived catalogs such as the photometricproperties, and 5 band FITS images are publicly available throughthe SDSS website.1

1 sdss.org.

We obtain 64,647 sets of images from the SDSS servers fora random selection of galaxies which are chosen to pass thefollowing photometric selection criteria; the angular extent mustbe less than 30 arc seconds as measured by the ‘Exponential’ and‘de’ Vaucouleurs’ light profiles in the r band; and that each g, r, i, zhas magnitudes greater than 0. We further select galaxies whichpass the following spectroscopic selection criteria; the error on thespectroscopic redshift to be less than 0.1 and the spectroscopicredshift must be below 2. We check that none of the selectedgalaxies have imageswithmissing ormasked pixel values. In detailwe run the MySQL query as shown in the appendix in the CasJobsserver.

We choose to obtain the galaxy image FITS files in the follow-ing four photometric bands; g, r, i, z. This enables a closer resem-blance to the bands available in other photometric surveys, forexample the Dark Energy Survey (The Dark Energy Survey Collab-oration, 0000). Each pixel in the FITS file has a resolution of 0.396arc seconds and contains the measured flux which has been cor-rected for a range of observational and instrument effects such asflat fielding and sky subtraction, in order to be suitable for astro-nomical analysis. All pixel fluxes are converted to pixelmagnitudesfollowing Lupton et al. (1999). We apply a further extinction cor-rection to account for galactic dust using themaps of Schlegel et al.(1998) which is available from the photoObjAll table in the CasJobsserver. The extinction corrections are subtracted from the value ofmagnitude in each pixel in the corresponding FITS files. We chooseto use FITS images of size 72×72 pixels, corresponding to 28.5 arcseconds on a side.We have explored the use of other image dimen-sions (32×32) but donot find improvement in the obtained results.The chosen image size is motivated by, and closely follows earlierwork using SDSS images (Dieleman et al., 2015), and ensures thatthe training times are tractable.

In the top row of Fig. 1 we show RGB jpeg images of threeexample galaxies with the following mappings; g band magnitude→ R, r band magnitude → G, and the i band magnitude → B.All pixel magnitudes are further rescaled across the entire layerto be integers within the range 0 to 255 for viewing purposesonly. We further modify these base images to be more suitablefor photometric redshift analysis by producing pixel colours fromthe pixel magnitudes and map pixel colours to each RGB layerpixel. We map the pixel colours i–z to the R layer pixels, r–ito the G layer pixels, and g–r to the B layer pixels. Finally wepass the r band pixel magnitude into an additional Alpha layerto produce an RGBA image. The r band magnitude is often usedin this way to act as a pivot point which provides an overallnormalisation to the input data. This may be useful during trainingand is common practice in photometric redshift analysis usingneural networks (see e.g., Brescia et al., 2014). Examples of thesemodified images are shown in the second rowof Fig. 1, butwe showonly the RGB values for viewing purposes.

During the analysis we scale all of the images, such that themaximum pixel value of 255 corresponds to the largest valueacross all training and test images in each of the RGBA layersseparately. Likewise the minimum pixel value of 0 is set to be thesmallest value in each layer across all images.

For a comparisonwith standardmachine learning architectureswe obtain model magnitudes measured by the SDSS photometricpipeline for each of the galaxies. To produce a fair comparisonwith the image analysis, we choose to use the de-reddened modelmagnitudes in the g, r, i, z bands and the size of each galaxymeasured by the Petrosian radius in the r band.

We randomly shuffle and subdivide the 64,647 galaxies intotraining, cross-validation and test samples of size 33,167, 4047,and 27,433. In what follows we train the machine learningarchitectures on the training sample. We then vary the hyper-parameters of the machine learning architecture and retrain a

36 B. Hoyle / Astronomy and Computing 16 (2016) 34–40

Fig. 1. The experimental setup with the ImageNet inspired Deep Neural Network (DNN) with Convolutional layers. We convert the pixel fluxes (top images) to pixelmagnitudes and subtract magnitudes to make pixel colours. The following colours are placed into separate image layers, the i–z colour maps to the R layer pixels, r–i to theG layer pixels, and g–r to the B layer pixels. Finally we pass the r band pixel magnitude into an additional Alpha layer to produce the RGBA image, as seen in the second row.These images are passed into a DNN (illustrated by the third row) to predict the galaxy redshift (z) bin (bottom panel). Partial image credit in text.

Fig. 2. The redshift number distribution of training (thick blue line) and test (thinorange line) galaxies used in thiswork. The stepped lines represent the classificationbins which are of width 0.01. (For interpretation of the references to colour in thisfigure legend, the reader is referred to the web version of this article.)

new model. We select which is the best trained model using thecross-validation sample, which is completely independent fromthe training sample. After choosing a final model, we pass the testsample through the finalmodel to obtainmachine learning redshiftpredictions. These redshift distributions produce a fair estimate ofthe ability of themachine learning architecture to predict redshiftsfor other galaxies which are representative of the training sample.In Fig. 2we show the spectroscopic redshift number distribution oftraining (thick blue line) and test (thin orange line) galaxies used inthiswork. The stepped lines represent the classification binswhichhave a width of 0.01 in redshift.

3. Machine learning architectures

In this work we utilise the latest developments in the fieldof machine learning by using Deep Neural Networks (DNNs).In particular we pass the entire galaxy image into the DNN toobtain a redshift estimate. As a comparison method we use amachine learning framework called boosted trees which produce

the current state of the art photometric redshift estimates usingstandard photometric features. We describe both architectures inmore detail below.

3.1. Deep neural networks

Major advances in many areas of machine learning haverecently been produced using DNNs. DNNs are based on standardneural networks, which are themselves inspired by the learningconnections between biological neurons and synapses in thehumanbrain. Neural networks have input layers, hidden layers andoutput layers. For our purposes, the input layers are the real valuedphotometric feature vectors that are measured for each galaxy.The output layer is the real valued floating point prediction forthe redshift. The hidden layers are connected to the input layersand they combine and weight the input values to produce a newreal valued number, which is then passed to the output layer. Theweights of the connections between the layers are updated duringthe training phase in order tomake the output value for each galaxyas close as possible to the spectroscopic redshift for that galaxy.

DNNs depart from these simple neural networks by construct-ing many hidden layers, with many multiple connected neuronsper layer. DNNs can also accept images as input layers using anarchitecture called Convolutional Neural Networks (Lecun andBengio, 1995), instead of vectors of real valued numbers. The Con-volutional Neural Networks retain information about the physi-cal location of pixels with respect to other pixels and are usedefficiently in combination with the Max Out algorithm (Goodfel-low et al., 0000). The power of DNNs comes from recent advancesin how the connections between the many millions of neuronsare trained. Previously the many millions of connections wouldquickly overfit even large training sets, and thereby lose the DNNspredictive power. Onemajor advancement is theDropout (Hintonet al., 0000) technique, which ignores a random number of neu-rons during each training round. This effectively results in eachtraining round learning a ‘weak model’, which is then combined toproduce a final model with a lot of predictive power, and a lowerchance of overfitting. Weak models have low predictive power by


themselves, however the predictions of many weak models can beweighted and combined to produce models with much strongerpredictive power.

To further ensure that the DNN does not overfit we apply dataaugmentation techniques to produce many training examples foreach of the original input images.We apply random image flippingand rotations, and randomly select a sub patch of size 60 × 60pixels to pass into the DNN. The image rotations are performedin discreet 90° intervals. We use these methods to increase thetraining sample size by a factor of 80. We do not currently applywhitening techniques to add noise to the images,which can furtherhelp with overfitting.

We choose to use a base DNN architecture inspired byKrizhevsky et al. (2012) that obtains state of the art results on theImageNet dataset (Russakovsky et al., 0000). We modify the baseDNN to accept images of dimension 4 × 60 × 60 and which pro-duces an output layerwith 94 classification bins,which correspondto redshift slices of width 0.01. We have also explored a limitedrange of DNN architectures. For example we find that using galaxyimages of dimensions 4×32×32 reduces the performance bymorethan 30%, and increasing the dropout fraction from 0.4 to 0.9 wefind that a dropout fraction of 0.6 produces slightly higher accuracyon the cross-validation. In future work we will provide a more de-tailed analysis of the effect of varying the hyper-parameter choicesfor the DNN architecture. We describe the full DNN architecture inmore detail in the appendix but note here that it contains some 23layers. In this workwe use the packageGraphLab (Low et al., 0000)as the main tool for building and training DNNs.

We show an illustration of the ImageNet inspired DNN withConvolutional Neural Network layers in the third row of Fig. 1which is an altered version of an image found on http://deeplearning.net/tutorial/lenet.html. The modified galaxy images(second row panels) are passed into the ImageNet DNN (third row)to predict the galaxy redshift bin (final row) in a classification anal-ysis. In Fig. 2 we present the distributions of the training and testdata per redshift classification bin.

3.2. Tree methods

Once a galaxy has been observed and its photometric propertiesmeasured, it can be placed along with other galaxies into a highdimensional scatter diagram inwhich each dimension correspondsto a chosen input feature. Decision trees are machine learningarchitectures which subdivide this high dimensional space intohigh dimensional boxes. Each new split, or box, is chosen duringthe training phase to maximise the similarity of the spectroscopicredshifts for all galaxies which fall within the same box. Once thespace has been suitably subdivided the training ends and eachbox is assigned a redshift estimate which is the mean value of allremaining galaxies within the box. Test data is then placed intothe high dimensional space, and the machine learning redshiftestimate is assigned to the test data from the value of the hyper-box which contains it.

Onemay think of each individual decision tree, or configurationof hyper-boxes, as learning a weak model, and the power of treebased methods comes from combining the results of many weakmodels to produce a final model with strong predictive power anda low chance of over fitting. There exist many techniques to choosehow the individual trees should be grown, and how the treesshould be combined, one of which is called Adaptive boosting, orAdaBoost (Freund and Schapire, 1997; Drucker, 1997). AdaBoosthas recently been shown to provide the most accurate galaxyredshift estimates when compared with many other machinelearning technologies (Hoyle et al., 2015). The power of AdaBoostis due to the algorithm preferentially attempting to learn a goodmodel, for those training examples with the worst performance

in the previous training round. We note that other boostingalgorithms exist, such as LogitBoost (Friedman et al., 2000), buthave not been widely adopted by the astrophysics community(however, see Zhang et al., 2011).

The hyper-parameters of the scikit-learn (Pedregosa et al.,2011) implementation of AdaBoost with regression trees are thenumber of trees combined to make the final model, the minimumnumber of training examples in the final hyper-boxes, the lossfunction, and the learning rate. We explore the full range ofloss functions and other hyper-parameters within the scikit-learnimplementation of AdaBoost. For more details on combiningtrees with AdaBoost and for further descriptions of the hyper-parameters, we refer the reader to Hastie et al. (2009). In whatfollows we refer to this standard machine learning architectureusing the magnitudes, colours and a r band Petrosian radius as‘AdaBoost’.

4. Results

We train both of the machine learning architectures (hereafterMLA) on the same sample of training galaxies, and determine howwell each MLA has been trained by passing the cross-validationsample through the learnt machine. For DNNs we use the fullgalaxy image as an input, and for AdaBoost we use the measuredmagnitudes, colours and radii. The output of AdaBoost is the realvalued number zML, that corresponds to the photometric redshift.The output of the DNN is the redshift bin that the classified galaxyis most likely to have. The DNN randomly extracts a sub imageof size 4 × 60 × 60 from the original image of size 4 × 72 ×

72 and therefore can produce a different redshift prediction foreach random sampling of the same image. We therefore pass eachgalaxy image into the final DNN one hundred times to producea redshift classification distribution, which we then convert to aredshift vector. We calculate the mean and standard deviation ofthis redshift vector and label the mean redshift for this galaxy aszML. We note that if we choose to use the median instead of themean as the redshift estimate, the final statistics vary very little.

We construct the residual vector ∆z = zML − zspec which is thedifference between the machine learning redshift and the spec-troscopic redshift. We measure the following metrics: µ, σ68, σ95,corresponding to the median value of ∆z , and the values corre-sponding to the 68% and 95% spread of ∆z . We additionally mea-sure the ‘outlier rate’ defined as fraction of galaxies for which|∆z/(1+ zspec)| > 0.15. If the residual distribution were describedwell by a Gaussian distribution, the choice of σ68 would corre-spond to the standard deviation, and µ would be equivalent to themean. However most photometric redshift residual distributionshave longer tails and are more peaked than a Gaussian distribu-tion and therefore the standard deviation is not representative ofthe dispersion of the data.

For AdaBoost we randomly explore the hyper-parameter space500 times and select the trained machine with the lowest valueof σ68 as measured on the cross-validation set. Similarly, we selectthe final DNN from the handful of models that we explored, to bethe model with the lowest value of σ68 as measured on the cross-validation set.

After deciding upon a final model for both MLAs we passthe sample of test galaxies, which is not used during trainingor model selection phase, through each MLA to obtain a finalset of machine learning photometric redshifts. This represents anunbiased estimate of the ability of the MLAs to produce redshiftestimates for other galaxies, however these galaxies must besimilar to, or representative of, the training sample. We againconstruct the residual redshift vector and measure the samestatistics as before.

Wepresent the results of theMLAs in Fig. 3. The toppanel showsa scatter plot of the DNN and AdaBoost redshift estimates against


Fig. 3. The top panel shows the DNNs machine learning redshift estimate againstthe spectroscopic redshift by the orange circles, and the AdaBoostmachine learningredshift estimate by the blue stars. The bottom panel presents histograms of theredshift residuals for DNNs by the solid orange line, andAdaBoost by the blue dottedline. The dark grey solid line shows the line of equality in the top panel, and the linedescribed by ∆z = 0 in the bottom panel. (For interpretation of the references tocolour in this figure legend, the reader is referred to the web version of this article.)

Table 1The statistics measured on each of the best machine learning architectures (MLA)are shown in the column headings, and are measured on the redshift residualdistribution ∆z of the test galaxies, which are not used during training or modelselection.

MLA µ σ68 σ95 |∆z/(1 + zspec)| > 0.15

DNNs 0.00 0.030 0.10 1.71%AdaBoost −0.001 0.030 0.10 1.56%

the spectroscopic redshift for each galaxy. The bottompanel showshistograms of the redshift residuals. We present the results usingthe DNNs by the orange circles and solid lines, and the AdaBoostresults by the blue stars symbols and dotted lines. The dark greysolid line shows the line of equality in the top panel, and the linedescribed by ∆z = 0 in the bottom panel. We show the valuesof each of the measured statistics in Table 1. We highlight thatthe values of µ and σ68 for the DNNs are identical (to the quotedprecision) to those values obtained from AdaBoost. We find thatthe outlier fraction is larger by 10% for the DNNs (1.71%) comparedwith AdaBoost (1.52%).

5. Discussion and conclusions

Robust photometric redshift estimates are a critical componentof maximising the cosmological information content availablefrom current and future photometric galaxy surveys. Indeed,recent work (Rau et al., 2015) show how the mis-estimation ofthe galaxy redshift distribution for a sample of galaxies producesbiases in many correlation function analyses, and other workshows how these biases effect cosmology (e.g., Bonnett et al.,0000).

Until now photometric redshifts have been estimated by firstextracting quantities from the galaxy image which are deemedsalient by the user. The extracted quantities are normally fluxeswithin a chosen aperture, or radii describing some aspect of thegalaxy profile. The extracted quantities are then either comparedto theoretical models of galaxy evolution, for example when usingtemplate basedmethods, or are used to learn themapping betweenthe measured quantities and the spectroscopic redshift for thesubset of the data which already has redshifts, for example whenusing standard machine learning methods.

In this work we propose a completely new method to estimatephotometric redshifts by passing the full galaxy imaging intoa Deep Neural Network (DNNs). The main advantage of thismethod is that the user does not prejudice the choice of measuredproperties extracted from the galaxy image a priori. One can viewthis new approach as the most extreme form of feature importancepossible (Hoyle et al., 2015). Feature importance ranks the chosenproperties (or features) of the galaxy by their predictive power forthe task at hand. In this approach features are not chosen a priori,but learnt during training. One consequence of this additionalfreedom is the massive increase in computational cost involvedwith this type of analysis, comparedwith a standard analysis usingpredefined features. It is therefore necessary to train the DNNsusing codes optimised for GPUs, and such codes are becomingmore widespread and user friendly, see e.g. GrapLab,2 Keras,3 orpylearn2.4

We compare our results using DNNs with a standard machinelearning photometric redshift analysis using the machine learningalgorithm called AdaBoost (Freund and Schapire, 1997; Drucker,1997) and the following input features; the deredened modelmagnitudes g, r, i, z, colours derived from the magnitudes, andthe r band Petrosian radius. This standard machine learningarchitecture has recently been shown to produce state of the artphotometric redshift estimates (Hoyle et al., 2015). These choicesof input features are made for maximal comparison with othercurrent and future photometric surveys, for example the DarkEnergy Survey (The Dark Energy Survey Collaboration, 0000).

For the DNN analysis we obtain r, g, i, z FITS images which wepre-process to generate four layer RGBA images,with the followingmapping between layers and pixel colours and pixel magnitudes;the colours i–z → R layer, r–i → G layer and g–r → B layer.Finally we map the r band pixel magnitude into Alpha layer of theRGBA image to provide a pivot point. The layers are further scaledto have integer values between 0 and 255, over the entire datasample.

One future extension of this work is to explore more realisticeffects when using images with both artefacts and maskedpixels, potentially due to survey boundaries, cosmic rays, or poorobserving conditions. We find that none of the SDSS images usedin this analysis have these problems. When using DNNs it isimportant to perform image rescaling, such that range of values donot span orders of magnitudes. Artefacts and masked pixels willtherefore have to be dealt with carefully when they do occur.

We download the above photometric features and imagesfor 64,647 galaxies from the SDSS website. We divide this datainto a training, cross-validation and test sample of size 33,167,4047, and 27,433. We choose to build sample sizes which arerelatively small compared to the full SDSS spectral dataset becauseof the computational cost of obtaining images, training the DNNand obtaining predictions. Both the training and the prediction

2 dato.com.3 keras.io.4 deeplearning.net/software/pylearn2.


phases of the DNN experiment require approximately 5 orders ormagnitude more computing resources than the standard analysis.This is a severe limitation of using the DNN method, especiallybecause the obtained predictions are comparable to those obtainedby the faster standard machine learning algorithms. Howeverdeep machine learning has made radical improvements andproduces state of the art predictions when applied to a variety oftasks. We therefore expect that as computing resources increase,and a more exhaustive search of hyper-parameter settings isperformed, the predictive power of DNNs may well improveover standard machine learning algorithms. Such alterations ofthe DNN architecture involve varying the number and shape ofthe convolutional neural network layers, the drop out fractionbetween the different layers, the number and size of the flattenedhidden layers and their activation functions, and the output layersfrom a binned classification analysis to a regression analysis. Onemay further extract the outputs of the final hidden layer and usethese as input features in a standard machine learning analysis.

In this work we explore a limited number of different DNNarchitectures to select a good fittingmodel.We leave a full analysisof DNN architectures to future work and refer to the appendix fora fuller description of the DNN architecture used in this work.

We construct the residual vector ∆z = zML − zspec which isthe difference between the machine learning photometric redshiftzML and the spectroscopic redshift. We measure the followingmetrics: µ, σ68, σ95, corresponding to the median value of ∆z , andthe values corresponding to the 68% and 95% spread of ∆z , andwe additionally measure the ‘outlier rate’ defined as fraction ofgalaxies for which |∆z/(1 + zspec)| > 0.15.

Other possible extensions to thiswork include the estimation offull galaxy redshift probability distribution functions (pdfs) insteadof redshift point predictions. A starting point for this work is tofollow that of Bonnett (2015), who estimates redshift distributionsfor galaxies using neural networks. We expect that the estimationof pdfswill furthermarginally increase the computation cost of theanalysis.

We note that the values of µ and σ68 for the DNNs (0.0, 0.03)are almost identical to those values obtained fromAdaBoost (0.001,0.03). We find that the outlier fraction is slightly larger by 10% forthe DNNs (1.71%) compared with AdaBoost (1.56%).

In future work we will extend this analysis to include moretraining and test galaxies from the SDSS andother datasets.Wewillalso begin to explore amuch larger range of DNNarchitectures, andother input image configurations.

Acknowledgements

I would like to thank Sander Deileman and Kerstin Peachfor useful discussions and Jochen Weller and Stella Seitz forproof reading and comments, and an anonymous referee whohas provided comments and feedback which have improved thequality and readability of the paper. The author declares nocompeting financial interests.

Appendix A. Deep neural network architecture

Inwhat followswe describe theDNNused in thiswork.Wenotethat this DNN is inspired by Krizhevsky et al. (2012) and furthermodified to suit both the input image shape choices and the outputredshift classifications binning.

First the images of size 72 × 72 × 4 are pre-processed toobtain pixel colours, which are mapped to the RGBA layers asdescribed in the data section. We then extract random contiguousimages of shape 60×60×4 from the pre-processed images. Theserandom images are passed into the first layer of the net whichis a Convolution Layer (denoted by C3,10) which itself applies a

learning smoothing filter of size 3 × 3 × 4 into a new pixel valuewhich is stored in new sub images in the next layer. Ten such subimages are generated in this way. The next layer is a RectifiedLinear Layer (R) which transforms all of the input values intooutput values using the function f (x) = max(0, x). These valuesare then transformed by aMaxPooling Layer (MP3) which is similarto the filtering in the C layer, but instead outputs the maximumvalue of the 3 × 3 filtered sub image into the next layer. The nextlayer is a Local Renormalisation Layer (RN5) which normalised theoutput values by the values coming from 5 neighbouring neurons.The subsequent Layers are C5,256 → R → MP3 → RN5 →

C3,384 → R → C3,384 → R → C3,256 → R,MP3, which is thenfollowed by a flattening layer which converts the Convolutionaltype layers into flat layers such as those found in standard neuralnetworks. The flattened layer is then followed by a Fully Connected(F4096) layer with 4096 neurons followed by R and then a DropoutLayer D0.6. The dropout layer transforms the incoming values byprobabilistically ignoring them during training, with a probabilityof 0.6. This Dropout layer is followed by F4096, R, F94 correspondingto the 94 redshift classes which are finally normalised andconverted into class probabilities using a Softmax layer.

Appendix B. MySQL data query

We select data from the SDSS CasJobs website by running thefollowing MySQL query in the Data Release 10 context:

select p.objid, s.specobjid, s.ra, s.dec,s.z as spec_z, s.zerr as err_spec_z,p.dered_u,p.dered_g,p.dered_r,p.dered_i,p.dered_z,p.PETRORAD_R,p.extinction_g, p.extinction_r,p.extinction_i,p.extinction_zinto mydb.DR10_DNNfrom Specobjall s join photoPrimary p on(s.bestobjid =p.objid)and p.deVRad_r >0 and p.deVRad_r<30 andp.dered_r>0 and p.dered_r < 22 ands.z>0 and s.z<2 ands.zerr>0 and s.zerr<0.1 andp.expRad_r>0 and p.expRad_r <30 and p.type=3

This results in 1,918,221 galaxies, of which we randomly select64,647 for use in this paper.

References

Ahn, C.P., Alexandroff, R., Allende Prieto, C., Anders, F., Anderson, S.F., Anderton, T.,Andrews, B.H., Aubourg, É, Bailey, S., Bastien, F.A., et al., 2014. The tenth datarelease of the sloan digital sky survey: First spectroscopic data from the SDSS-III apache point observatory galactic evolution experiment. Astrophys. J. Suppl.211, 17. doi:10.1088/0067-0049/211/2/17. arXiv:1307.7735.

Bonnett, C., 2015. Using neural networks to estimate redshift distributions.An application to CFHTLenS. Mon. Not. R. Astron. Soc. 449, 1043–1056.doi:10.1093/mnras/stv230. arXiv:1312.1287.

Bonnett, C., Troxel, M.A., Hartley, W., Amara, A., Leistedt, B., et al. 0000. Redshiftdistributions of galaxies in the DES Science Verification shear catalogue andimplications for weak lensing, ArXiv e-prints arXiv:1507.05909.

Brescia, M., Cavuoti, S., Longo, G., De Stefano, V., 2014. A catalogue ofphotometric redshifts for the SDSS-DR9 galaxies. Astron. Astrophys. 568, A126.doi:10.1051/0004-6361/201424383. arXiv:1407.2527.

Carrasco Kind, M., Brunner, R.J., 2013. TPZ: photometric redshift PDFs and ancillaryinformation by using prediction trees and random forests. Mon. Not. R. Astron.Soc. 432, 1483–1501. doi:10.1093/mnras/stt574. arXiv:1303.7269.

Dahlen, T.E.A., 2013. A critical assessment of photometric redshift methods: A CAN-DELS investigation. Astrophys. J. 775, 93. doi:10.1088/0004-637X/775/2/93.arXiv:1308.5353.

Dieleman, S., Willett, K.W., Dambre, J., 2015. Rotation-invariant convolutionalneural networks for galaxy morphology prediction. Mon. Not. R. Astron. Soc.450, 1441–1459. doi:10.1093/mnras/stv632. arXiv:1503.07077.

Drucker, H., 1997. Improving regressors using boosting techniques. In: Proceedingsof the Fourteenth International Conference on Machine Learning, ICML’97.Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, pp. 107–115. URLhttp://dl.acm.org/citation.cfm?id=645526.657132.


The Dark Energy Survey Collaboration, 0000. The dark energy survey, ArXivAstrophysics e-prints arXiv:astro-ph/0510346.

EisensteinE.A., D.J., 2011. SDSS-III: Massive spectroscopic surveys of the distantuniverse, the milky way, and extra-solar planetary systems. Astron. J. 142, 72.doi:10.1088/0004-6256/142/3/72. arXiv:1101.1529.

Freund, Y., Schapire, R.E., 1997. A decision-theoretic generalization of on-linelearning and an application to boosting. J. Comput. System Sci. 55 (1), 119–139.doi:10.1006/jcss.1997.1504.URL http://www.sciencedirect.com/science/article/pii/S002200009791504X.

Friedman, J., Hastie, T., Tibshirani, R., 2000. Additive logistic regression: a statisticalview of boosting (with discussion and a rejoinder by the authors). Ann. Statist.28 (2), 337–407. doi:10.1214/aos/1016218223.

Gerdes, D.W., Sypniewski, A.J., McKay, T.A., Hao, J.,Weis,M.R.,Wechsler, R.H., Busha,M.T., 2010. ArborZ: Photometric redshifts using boosted decision trees. Astro-phys. J. 715, 823–832. doi:10.1088/0004-637X/715/2/823. arXiv:0908.4085.

Goodfellow, I.J., Warde-Farley, D., Mirza, M., Courville, A., Bengio, Y., 0000. Maxoutnetworks, ArXiv e-prints arXiv:1302.4389.

Gunn, J.E., Siegmund, W.A., Mannery, E.J., Owen, R.E., Hull, C.L., Leger, R.F., Carey,L.N., Knapp, G.R., York, D.G., Boroski,W.N., Kent, S.M., Lupton, R.H., Rockosi, C.M.,et al., 2006. The 2.5 m telescope of the sloan digital sky survey. Astron. J. 131,2332–2359. doi:10.1086/500975. arXiv:astro-ph/0602326.

Hastie, T., Tibshirani, R., Friedman, J., 2009. The Elements of Statistical Learning:Data Mining, Inference and Prediction, second ed.. Springer, URL http://www-stat.stanford.edu/~tibs/ElemStatLearn/.

Hildebrandt, H., Arnouts, S., Capak, P., Moustakas, L.A., Wolf, C., Abdalla, E.A.,2010. PHAT: photo-z accuracy testing. Astron. & Astrophys. 523, A31.doi:10.1051/0004-6361/201014885. arXiv:1008.0658.

Hinton, G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.R.,Improving neural networks by preventing co-adaptation of feature detectors,ArXiv e-prints arXiv:1207.0580.

Hála, P., 2014. Spectral classification using convolutional neural networks, ArXiv e-prints arXiv:1412.8341.

Hoyle, B., Rau,M.M., Bonnett, C., Seitz, S.,Weller, J., 2015. Data augmentation forma-chine learning redshifts applied to sloan digital sky survey galaxies. Mon. Not.R. Astron. Soc. 450, 305–316. doi:10.1093/mnras/stv599. arXiv:1501.06759.

Hoyle, B., Rau, M.M., Paech, K., Bonnett, C., Seitz, S., Weller, J., 2015. Anomalydetection for machine learning redshifts applied to SDSS galaxies. Mon. Not. R.Astron. Soc. 452, 4183–4194. doi:10.1093/mnras/stv1551. arXiv:1503.08214.

Hoyle, B., Rau, M.M., Zitlau, R., Seitz, S., Weller, J., 2015. Feature importance formachine learning redshifts applied to SDSS galaxies. Mon. Not. R. Astron. Soc.449, 1275–1283. doi:10.1093/mnras/stv373. arXiv:1410.4696.

Krizhevsky, A., Sutskever, I., Hinton, G.E., 2012. Imagenet classification with deepconvolutional neural networks. In: Pereira, F., Burges, C., Bottou, L., Wein-berger, K. (Eds.), Advances in Neural Information Processing Systems, vol. 25.Curran Associates, Inc., pp. 1097–1105. URL http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.

Lahav, O., 1997. Artificial neural networks as a tool for galaxy classification. In: DiGesu, V., Duff, M.J.B., Heck, A., Maccarone, M.C., Scarsi, L., Zimmerman, H.U.(Eds.), Data Analysis in Astronomy. pp. 43–51. arXiv:astro-ph/9612096.

Lecun, Y., Bengio, Y., 1995. Convolutional Networks for Images. In: Speech and TimeSeries, The MIT Press, pp. 255–258.

Low, Y., Gonzalez, J., Kyrola, A., Bickson, D., Guestrin, C., Hellerstein, J.M., 0000.GraphLab: A new framework for parallel machine learning, ArXiv e-printsarXiv:1006.4990.

Lupton, R.H., Gunn, J.E., Szalay, A.S., 1999. A modified magnitude system thatproduces well-behaved magnitudes, colors, and errors even for low signal-to-noise ratio measurements. Astron. J. 118, 1406–1410. doi:10.1086/301004.arXiv:astro-ph/9903081.

Pedregosa, F., et al., 2011. Scikit-learn: Machine learning in python. J. Mach. Learn.Res. 12, 2825–2830.

Rau, M.M., Seitz, S., Brimioulle, F., Frank, E., Friedrich, O., Gruen, D., Hoyle, B.,2015. Accurate photometric redshift probability density estimation - methodcomparison and application. Mon. Not. R. Astron. Soc. 452, 3710–3725.doi:10.1093/mnras/stv1567. arXiv:1503.08215.

Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy,A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L., 0000. ImageNet large scalevisual recognition challenge, ArXiv e-prints arXiv:1409.0575.

Schlegel, D.J., Finkbeiner, D.P., Davis, M., 1998. Maps of dust infrared emission foruse in estimation of reddening and cosmic microwave background radiationforegrounds. Astrophys. J. 500, 525–553. doi:10.1086/305772. arXiv:astro-ph/9710327.

Smith, J.A., et al., 2002. The u’g’r’i’z’ standard-star system. Astron. J. 123, 2121–2144.doi:10.1086/339311. arXiv:astro-ph/0201143.

SánchezE.A., C., 2014. Photometric redshift analysis in the Dark Energy Sur-vey Science Verification data. Mon. Not. R. Astron. Soc. 445, 1482–1506.doi:10.1093/mnras/stu1836. arXiv:1406.4407.

Tagliaferri, R., Longo, G., Andreon, S., Capozziello, S., Donalek, C., Giordano, G., 2003.Neural networks for photometric redshifts evaluation. LectureNotes in Comput.Sci. 2859, 226–234.http://dx.doi.org/10.1007/978-3-540-45216-4_26. arXiv:astro-ph/0203445.

Willett, K.W., Lintott, C.J., Bamford, S.P., Masters, K.L., et al., 2013. Galaxy zoo2: detailed morphological classifications for 304 122 galaxies from the sloandigital sky survey. Mon. Not. R. Astron. Soc. 435, 2835–2860.doi:10.1093/mnras/stt1458. arXiv:1308.3496.

Yeche, C., Petitjean, P., Rich, J., Aubourg, E., Busca, N., Hamilton, J., Le Goff, J., Paris, I.,Peirani, S., Pichon, C., Rollinde, E., Vargas-Magana, M., 0000. QSO selection andphotometric redshifts with neural networks,ArXiv e-prints arXiv:0910.3770.

Zhang, Y., Luo, A., Zhao, Y., 2011. Mining quasar candidates from large sky surveys5116–5124.

166

5.2 Traduction

Estimation du redshift photométrique par les réseaux de neurones appliqués au

traitement d’images de galaxies

B. Hoyle

Observatoire de Munich, Faculté de Physique, Université Louis-et-Maximilien de

Munich, Scheinerstr. 1, D-81679, Munich, Allemagne, Excellence Cluster Universe,

Boltzmannstr. 2, D-85748, Garching, Allemagne

RÉSUMÉ

Nous proposons une nouvelle méthode d’estimation du redshift photométrique qui utilise

l’image complète de la galaxie dans chaque bande spectrale mesurée. Cette méthode s’inspire

des dernières techniques et progrès de l'apprentissage automatique et plus particulièrement des

réseaux de neurones profonds (en anglais : Deep Neural Networks, DNNs). Nous appliquons

une image multibande de la galaxie complète en entrée de l’architecture d’apprentissage

automatique, afin d’obtenir une estimation du redshift dont la précision rivalise les meilleures

techniques classiques d'apprentissage automatique. Les techniques de calculs courantes du

redshift sont basées sur des caractéristiques de post-traitement extraites d’images de galaxies,

telles que les mesures de magnitude et les couleurs, qui sont considérées comme étant les plus

saillantes par l’utilisateur. Dans cette nouvelle méthode, l’utilisateur n’intervient pas dans le

pipeline de traitement des données utilisé. Cependant, nous constatons que les réseaux de

neurones profonds exigent des ressources informatiques d’un ordre de grandeur supérieur à

celles des architectures classiques d'apprentissage automatique. En tant que tels, ils peuvent

uniquement traiter et faire des prédictions sur des jeux de données d’une taille ≤ 50 k avant la

parallélisation.

1. Introduction

Pour maximiser les données cosmologiques disponibles grâce aux relevés galactiques à grande

échelle qui sont menés actuellement ou en projet, il faut disposer d’estimations de distance

fiables de nombreuses galaxies. Nous calculons la distance des galaxies grâce à la relation entre

la distance et le redshift, qui exprime l’augmentation de la longueur d'onde de la lumière émise

167

par les galaxies en raison de l'expansion de l'Univers, lorsque la lumière voyage de la galaxie

jusqu’à nos détecteurs. Cet étirement entraîne une perte d'énergie des photons et un décalage

vers les grandes longueurs d’onde, connu sous le nom de redshift (ou décalage vers le rouge).

Plus une galaxie est lointaine, plus la lumière qu’elle émet aura traversé l'univers en expansion

et se sera décalée vers le rouge.

La procédure permettant l’obtention de redshifts spectroscopiques très précis consiste à mesurer

le redshift de l’absorption spectrale et des raies d’émission. Elle nécessite des temps

d’exposition très longs sur des spectrographes spécifiques et ne s’effectue généralement que

sur un sous-échantillon réduit de toutes les galaxies. À l’inverse, la caractérisation

photométrique multibande des galaxies est moins coûteuse en temps de calcul. Le compromis

consiste alors à tenter d'extraire des mesures de redshift moins précises à partir des

caractéristiques photométriques d’un échantillon de galaxies beaucoup plus grand. Les

estimations de redshift photométrique peuvent être obtenues à partir de procédures d'ajustement

de modèles, de techniques d'apprentissage automatique ou d'une méthode hybride comprenant

ces deux méthodes, par exemple au moyen de l’augmentation de données (Hoyle et al., 2015).

Les méthodes utilisant des modèles sont des modèles paramétriques construits à partir de

modélisations de la distribution énergétique spectrale des galaxies. Certains modèles encodent

nos connaissances des modèles de population stellaire et permettent de prédire l'évolution des

magnitudes et des couleurs de galaxie. Le codage paramétrique de la physique stellaire

complexe associé à l'incertitude sur les paramètres des modèles de population stellaire induisent

des estimations de redshift qui ne sont guère meilleures que les mesures obtenues grâce aux

nombreuses autres techniques non-paramétriques. Voir par exemple Hildebrandt et al. (2010),

Dahlen (2013) pour un aperçu des différentes techniques. Contrairement aux techniques

d'apprentissage non paramétrique et d'apprentissage automatique, les méthodes utilisant des

modèles ne nécessitent pas d’entraînement à base d’échantillons, qui sont censés être

représentatifs des galaxies pour lesquelles des estimations de redshift sont requises. D'autres

méthodes utilisant des modèles sont générées soit indépendamment, soit en combinaison avec

des données empiriques. Cependant, ces deux modèles impliquent des réglages et dépendent

également d’échantillons d’entraînement représentatifs.

Lorsqu'un échantillon d’apprentissage sans biais est disponible pour l’entraînement, les

méthodes d'apprentissage automatique constituent une alternative aux approches utilisant des

modèles pour estimer le redshift. L'architecture machine optimise l’utilisation des

168

caractéristiques photométriques des galaxies fournies en entrée (que nous appellerons

dorénavant « caractéristiques »), pour obtenir, grâce à l’apprentissage automatique, une

estimation du redshift. La machine tente d'apprendre les manipulations optimales pour

minimiser la différence entre le redshift spectroscopique et le redshift d'apprentissage

automatique calculé sur l'échantillon d’entraînement.

Le domaine de l’apprentissage automatique pour l'analyse du redshift photométrique se

développe depuis l’utilisation des réseaux de neurones artificiels (aNNs) dans les travaux de

Tagliaferri et al. (2003). Une pléthore d'architectures d'apprentissage automatique, y compris

des méthodes employant des arbres de décision, a été appliquée au problème de l'estimation de

valeur ponctuelle du redshift (Sánchez and Photometric, 2014) ou pour estimer la fonction de

distribution en probabilité du redshift (Gerdes et al., 2010; Carrasco Kind and Brunner, 2013;

Bonnett, 2015; Rau et al., 2015). Les architectures d'apprentissage automatique ont également

fait leurs preuves dans d'autres domaines de l'astronomie tels que l'identification de la

morphologie des galaxies ou la séparation étoile-quasar (Lahav, 1997; Yeche et al., 2009).

Ce n’est que récemment que l'utilisation d’une architecture d'apprentissage automatique basée

sur les réseaux de neurones profonds (que nous appellerons dorénavant DNN : Deep Neural

Networks en anglais) a été appliquée aux problèmes d'astrophysique. Par exemple, Dieleman

et al. (2015) a entraîné les DNN à reproduire les classifications morphologiques détaillées

obtenues par les astronomes amateurs qui avaient répondu aux questions du projet Galaxy Zoo 2

(Willett et al., 2013). Cela a permis d'obtenir des mesures d’une précision allant jusqu'à 99 %

sur certaines questions de classification, et (Hála, 2014) a étudié la question de la classification

spectrale du Sloan Digital Sky Survey (Ahn et al., 2014) (ci-après SDSS). Dans l'approche

classique de l’apprentissage automatique, l’utilisateur sélectionne, parmi une liste de tous les

éléments d’entrée possibles, les caractéristiques photométriques qui seront utilisées pour

l’entraînement de l'architecture. L’auteur a récemment effectué un classement de

l’« importances des caractéristiques » les plus représentatives du redshift photométrique. Ainsi,

grâce aux techniques d'apprentissage automatique, il est possible, parmi différentes propriétés,

de déterminer celles dont le pouvoir prédictif est le plus élevé (Hoyle et al., 2015). Le modèle

que nous présentons est le cas le plus extrême de l’importance des propriétés. Il n’est plus

nécessaire de projeter des connaissances a priori pour postuler les propriétés photométriques

dérivées qui auront le meilleur pouvoir prédictif de redshift, ni même de mesurer les propriétés

photométriques.

169

Dans notre approche, en introduisant l’image complète de la galaxie dans l’architecture

d'apprentissage automatique (DNN) nous écartons complètement l'utilisateur du processus

d’estimation du redshift photométrique.

Par ailleurs, tant les méthodes utilisant des modèles que les techniques standard d'apprentissage

automatique d’estimation du redshift impliquent de mesurer les magnitudes, les couleurs et

d’autres propriétés des galaxies. L'analyse présentée dans cet article, qui utilise l'image

complète de la galaxie, supprime partiellement cette exigence. Cependant, nous avons à ce jour

toujours besoin de détecter les galaxies au préalable pour produire une image aux dimensions

d’un timbre-poste.

Le plan de notre article est le suivant : dans la section 2, nous décrivons les images de galaxies

et les étapes de prétraitement des données qui prépareront les images à l’entraînement par les

DNN. Nous présentons ensuite les deux architectures d'apprentissage automatique dans la

section 3. La section 4 comprend l'analyse et les résultats. Enfin, la section 5 inclut la conclusion

et la discussion.

2. Données de galaxies et images

Pour cette étude, les données de galaxie sont issues du SDSS Data Release 10 (Ahn et al., 2014).

Les trois premières générations du relevé (SDSS I–III) emploient un télescope de 2,5 m de

diamètre, situé à l'observatoire Apache Point du Nouveau-Mexique, dont le système

photométrique comprend des capteurs CCD (charge-couple device : dispositif à transfert de

charges) grand champ et un jeu de 5 filtres (Gunn et al., 2006; Smith et al., 2002). Les SDSS I-

III s’inscrivent dans un vaste programme de relevés spectroscopiques (Eisenstein et D.J., 2011)

couvrant π stéradians du ciel nord. La collaboration dans le cadre du SDSS a permis d’obtenir

deux millions de spectres de galaxies grâce à l’utilisation de spectrographes double-fibres. Un

pipeline photométrique automatisé effectue la classification d’objets jusqu’à une magnitude de

r ≈ 22 et mesure les propriétés photométriques de plus de 100 millions de galaxies. Tous les

échantillons de données et de nombreux catalogues dérivés, comme les caractéristiques

photométriques et les images 5 bandes FITS sont accessibles au public sur le site Web du

SDSS.1

Nous obtenons 64 647 séries d'images à partir des serveurs SDSS et de la sélection aléatoire de

galaxies selon les critères photométriques suivants : leur étendue angulaire doit être inférieure

170

à 30 secondes d’arc d’après les mesures des profils de brillance ‘exponentiel’ et ‘de

Vaucouleurs’ dans la bande r ; et chaque bande : g, r, i, z doit avoir une magnitude supérieure

à 0. Nous choisissons également les galaxies qui répondent aux critères de sélection

spectroscopiques suivants : l'erreur sur le redshift spectroscopique doit être inférieure à 0,1 et

le redshift spectroscopique doit être inférieur à 2. Nous vérifions qu'aucune des galaxies

sélectionnées ne comporte d’images dont les valeurs de pixels manquent ou sont masquées. En

détail, nous exécutons la requête MySQL comme indiqué dans l'annexe du serveur CasJobs.

Nous paramétrons l’obtention de fichiers d’images de galaxie FITS dans les quatre bandes

photométriques suivantes : g, r, i et z. Cela permet d’optimiser les similitudes avec les bandes

rendues disponibles par d'autres relevés photométriques, par exemple le Dark Energy Survey

(The Dark Energy Survey Collaboration, 0000). Chaque pixel du fichier FITS a une résolution

de 0,396 secondes d'arc et correspond à un flux mesuré auquel nous avons appliqué un certain

nombre de corrections des biais dus aux observations et aux instruments, comme la correction

de champ plat et la soustraction du fond du ciel, pour préparer les données à l'analyse. Tous les

flux de pixels sont convertis en magnitude de pixel en suivant Lupton et al. (1999). Nous

appliquons une nouvelle correction d'extinction pour éliminer la poussière galactique en

utilisant les cartes de Schlegel et al. (1998), qui sont disponibles dans le tableau photoObjAll

du serveur CasJobs. Ces corrections pour l’extinction sont soustraites de la valeur de magnitude

de chaque pixel dans les fichiers FITS correspondants. Nous choisissons d'utiliser des images

FITS d’une dimension de 72×72 pixels, soit 28,5 secondes d’arc de côté. Nous avons envisagé

l’utilisation d'autres dimensions d'image (32×32) mais les résultats obtenus ne présentent

aucune amélioration. La taille de l'image choisie est justifiée et suit de près les travaux

antérieurs utilisant les images du SDSS (Dieleman et al., 2015), ce qui garantit que les temps

d’entraînement peuvent être respectés.

Dans la ligne supérieure de la Fig. 1, figurent les images JPEG de trois exemples de galaxies

avec les mises en correspondance suivante pour les valeurs RVB : magnitude de la bande

g → R, magnitude de la bande r → V, et magnitude de la bande i → B. Afin de faciliter la

visualisation des résultats, toutes les magnitudes de pixels sont ensuite remises à l’échelle sur

l'ensemble du système photométrique et convertis en nombres entiers entre 0 et 255. En outre,

nous modifions ces images de base pour les rendre compatibles avec l'analyse du redshift

photométrique. Nous calculons l’indice de couleur des pixels à partir de leur valeur et nous

attribuons des couleurs à chacune des trois composantes RVB. Nous procédons ensuite à

l’appariement des couleurs de pixels i-z aux pixels de la couche R, r-I aux pixels de la couche

171

V, et g-r aux pixels de la couche B. Enfin, nous passons la bande R d'amplitude des pixels dans

une couche Alpha additionnelle pour produire une image RVBA. L'amplitude de la bande R est

souvent utilisée comme valeur de référence pour effectuer la normalisation globale des données

d'entrée. Cette pratique est courante dans l'analyse du redshift photométrique par des réseaux

de neurones (voir par exemple Brescia et al., 2014) et peut être utile durant l’entraînement. Des

exemples d’images modifiées figurent dans la deuxième ligne de la Figure 1 (à des fins de

visualisation nous présentons uniquement les valeurs RVB).

Pendant l'analyse, toutes les images sont redimensionnées pour que la valeur maximale de pixel

‘255’ corresponde à la plus grande valeur parmi toutes les images d’entraînement et de test, et

ce, dans chacune des couches RVBA. De même, nous attribuons une valeur minimale de pixel

‘0’ à chaque filtre et dans toutes les images.

Pour comparer notre méthode aux architectures d'apprentissage automatique standard, nous

déterminons les amplitudes modèles, qui sont mesurées par le pipeline photométrique SDSS

pour chacune des galaxies. Pour que la comparaison soit juste en regard de l'analyse de l'image,

nous choisissons d'utiliser des modèles redéfinis dont la couleur rouge a été soustraite des

bandes g, r, i, z et la taille de chaque galaxie mesurée par le rayon pétrosien dans la bande r.

Nous mélangeons aléatoirement les 64 647 galaxies que nous subdivisons en trois jeux de

données : 33 167 pour la phase d’apprentissage, 4 047 pour la phase de validation croisée et

27 433 pour la phase de test. Puis, nous entraînons le DNN avec le jeu de données

d’apprentissage. Nous choisissons ensuite de nouveaux hyperparamètres pour l’architecture

d’apprentissage automatique pour entraîner un nouvel échantillon.

Nous choisissons le modèle le mieux entraîné en utilisant l'échantillon de validation croisée,

qui demeure complètement indépendant de l'échantillon d’entraînement. Après avoir

sélectionné le modèle final, nous passons l'échantillon test à travers le modèle final afin

d’obtenir les prédictions du redshift grâce à l’apprentissage automatique. Ces distributions du

redshift permettent d’estimer le plus précisément possible la capacité de prédiction du redshift

par l'architecture d'apprentissage automatique appliquée à d'autres galaxies qui sont

représentatives de l'échantillon d’entraînement.

La figure 2 comprend la valeur de la distribution du redshift spectroscopique dans les phases

d’entraînement (ligne bleue épaisse) et de test (fine ligne orange) correspondant aux galaxies

étudiées dans ce travail. Les courbes en escalier représentent des emplacements de classification


172

3. Architectures d'apprentissage automatique

Notre méthode est à la pointe de l'apprentissage automatique grâce à l’utilisation de DNNs.

Nous passons l'image de galaxie complète dans les DNNs afin d’obtenir une estimation de

redshift. Pour effectuer la comparaison, nous employons un système d'apprentissage

automatique appelé « boosted trees » (arbres de décision « boostés »), qui produit des

estimations de redshift photométrique reflétant l'état de l’art et emploie des caractéristiques

photométriques standard. Nous décrivons ces deux architectures plus en détail ci-dessous.

3.1. Réseaux de neurones profonds (DNNs)

Dans de nombreux domaines de l'apprentissage automatique, nous devons les progrès les plus

importants à l’utilisation des DNNs. L’architecture des DNNs est fondée sur celle des réseaux

de neurones classiques, qui sont eux-mêmes inspirés du fonctionnement des neurones et

synapses du cerveau humain. Les réseaux de neurones sont constitués de couches d’entrée, de

couches cachées et de couches de sortie. Dans notre modèle, les couches d’entrée sont les

valeurs réelles des vecteurs photométriques mesurés pour chaque galaxie. La couche de sortie

correspond à l’estimation de la valeur réelle du point flottant du redshift. Les couches cachées

sont connectées aux couches d'entrée : elles combinent et pondèrent les valeurs d'entrée pour

produire une nouvelle valeur réelle, qui est ensuite transmise à la couche de sortie. Les poids

qui relient les couches sont mis à jour durant la phase d’entraînement afin d’estimer, pour

chaque galaxie, la valeur de sortie la plus proche de son redshift spectroscopique.

Les réseaux de neurones profonds ont été créés sur la base des réseaux de neurones classiques,

mais de multiples couches cachées ont été ajoutées à leur architecture. Ainsi, pour chaque

couche, plusieurs neurones sont connectés. Les DNNs peuvent accepter des images dans la

couche d'entrée, en utilisant une architecture appelée réseau de neurones à convolution (ou

CNNs, Convolutional Neural Networks en anglais) (Lecun et Bengio, 1995), au lieu de vecteurs

de valeurs réelles. Les réseaux de neurones à convolution retiennent des informations sur

l'emplacement physique des pixels par rapport à d'autres pixels et sont employés de manière

efficace en combinaison avec l'algorithme Max Out (Goodfellow et al., 0000). Si les DNNs

sont si puissants, c’est grâce aux progrès récents concernant la manière dont s’effectue

l’entraînement entre les connexions des millions de neurones. Jusque-là, ces millions de

connexions pouvaient rapidement induire un sur-apprentissage sur de grands ensembles

d’entraînement, ce qui diminuait le pouvoir prédictif des DNNs. La technique Dropout (Hinton

et al., 0000) constitue une avancée majeure : à chaque série d’entraînement, elle permet de ne

173

pas tenir compte d’un nombre aléatoire de neurones. Ainsi, le DNN est entraîné sur un « modèle

faible » et sur plusieurs séries. Ces modèles faibles peuvent être combinés afin de produire un

modèle final possédant de bonnes capacités prédictives, ce qui permet de diminuer le

phénomène de sur-apprentissage. Certes, les modèles faibles ont une faible puissance

prédictive, mais les prédictions cumulées de plusieurs modèles faibles peuvent être pondérées

et combinées afin de produire des modèles disposant d’une meilleure puissance prédictive.

Pour éviter le phénomène de sur-apprentissage, nous appliquons des techniques d’augmentation

de données afin de produire, pour chacune des images originales d’entrée, de nombreux

exemples d’entraînement. Nous appliquons des retournements et des rotations aléatoires aux

images, en sélectionnant aléatoirement un sous-jeu de taille 60 × 60 pixels, que nous fournissons

en entrée aux DNNs. Les rotations d’images sont effectuées en intervalles discrets de 90°. Nous

utilisons ces méthodes pour augmenter la taille de l’échantillon d’entraînement d’un facteur de

80. Nous n’appliquons pas, pour le moment, de techniques de blanchiment de bruit, qui

pourraient par la suite diminuer le sur-apprentissage.

Nous choisissons d’utiliser une architecture DNN qui s’inspire des travaux de Krizhevsky et al.

(2012) et obtenons des résultats à la pointe sur le jeu de données ImageNet (Russakovsky et al.,

0000). Nous modifions l’architecture pour qu’elle accepte des images de dimension 4×60×60

et produise une couche de sortie comprenant 94 emplacements de classification, correspondant

chacun à des coupes de redshift d’une largeur de 0,01. Nous avons également exploré un

éventail restreint d'architectures DNNs. Par exemple, nous notons que l'utilisation d'images de

galaxie de dimensions 4×32×32 réduit les performances de plus de 30 % et augmente la fraction

de dropout de 0,4 à 0,9. Nous observons que grâce à la technique du dropout, une fraction de

0,6 améliore légèrement la précision lors de la validation croisée. Dans nos futurs travaux, nous

ferons une analyse plus détaillée des effets de la variation des options d’hyperparamètres de

l’architecture DNN. Nous décrivons l'architecture complète du DNN plus en détail dans

l'annexe, mais notons ici qu'elle contient environ 23 couches. Pour ce travail, nous utilisons le

package GraphLab (Low et al., 0000) comme principal outil de construction et d’entraînement

des DNNs.

Une illustration du DNN et du réseau de neurones à convolution, inspirée par ImageNet apparaît

à la troisième ligne de la Fig. 1, il s’agit d’une version modifiée d'une image trouvée sur

http://deeplearning.net/tutorial/lenet.html. Les images de galaxie modifiées (images figurant

sur la deuxième ligne) sont transmises au DNN ImageNet (troisième ligne) pour prédire le

174

groupement des données pour le redshift de galaxies (dernière ligne) lors d’une analyse de

classification. Dans la figure 2, nous présentons les distributions des données d’entraînement et

de test pour chaque emplacement de redshift.

[…]

3.2. Arbres de décision

Lorsqu’une galaxie a été observée et ses caractéristiques photométriques mesurées, elle peut

être regroupée avec d’autres galaxies dans un diagramme de dispersion haute dimension où

chaque dimension correspond à une caractéristique d’entrée donnée. Les arbres de décision sont

des architectures d’apprentissage automatique qui divisent cet espace haute dimension en boîtes

haute dimension. Chaque boîte est choisie durant la phase d’entraînement pour maximiser la

similarité des redshifts spectroscopiques des galaxies réunies dans une même boîte. Une fois

l’espace correctement divisé, la phase d’entraînement s’achève et une estimation de redshift est

assignée à chaque boîte, celle-ci correspondant à la valeur moyenne de toutes les galaxies

restant dans la boîte. Les données de test sont ensuite placées dans un espace haute dimension,

et l’estimation du redshift produite par le DNN est attribuée aux données de test à partir de la

valeur de l’hyperboîte qui les contient.

En somme, chaque arbre de décision et configuration d’hyperboîte est entraîné sur un modèle

faible. Le pouvoir prédictif des méthodes employant des arbres de décision provient de la

combinaison des résultats de plusieurs modèles faibles et génère un modèle final bénéficiant

d’un fort pouvoir prédictif et de faibles risques de sur-apprentissage. De nombreuses techniques

sont dédiées aux choix de construction des arbres et aux différentes combinaisons : l’une d’entre

elles se nomme Adaptive boosting, ou AdaBoost (Freund and Schapire, 1997; Drucker, 1997).

[…]

Dans les développements qui suivent, nous appellerons « AdaBoost » notre architecture

standard d’apprentissage automatique employant les magnitudes, les couleurs, et une bande r

de rayon pétrosien.

4. Résultats

Nous entraînons les deux architectures d'apprentissage automatique (que nous appellerons

dorénavant MLA) sur le même échantillon de galaxies d’entraînement, et nous déterminons le

175

score de chaque MLA en passant l’échantillon de validation croisée dans la machine entraînée.

Pour les DNNs, nous utilisons l'image de la galaxie complète comme entrée, et pour AdaBoost

nous utilisons les magnitudes, les couleurs et rayons pétrosiens mesurés. AdaBoost produit en

sortie la valeur réelle « zML » correspondant au redshift photométrique. Le DNN fournit en

sortie l’emplacement de redshift que la galaxie classée est la plus susceptible de produire. Le

DNN extrait aléatoirement une sous-image de dimension 4 × 60 × 60 à partir de l'image

originale de dimension 4 × 72 × 72 et peut donc faire une prédiction de redshift différente pour

chaque échantillonnage aléatoire de la même image. Nous passons donc chaque image de

galaxie dans le dernier DNN cent fois, pour produire une distribution de classification de

redshift, que nous convertissons ensuite en vecteur redshift. Nous calculons la moyenne et

l'écart type de ce vecteur de redshift et nous étiquetons le redshift moyen de cette galaxie du

marqueur zML. Nous remarquons que si nous utilisons la médiane au lieu de la moyenne pour

l'estimation du redshift, les statistiques finales varient très peu.

Nous construisons le vecteur résiduel Δ z = zML – zspec, soit la différence entre le redshift

estimé par l’apprentissage automatique et le redshift spectroscopique. Nous mesurons les

paramètres suivants : μ, σ68, σ95, qui correspondent à la valeur médiane de ΔZ, et les valeurs

correspondant à la propagation de 68 % et 95 % de ΔZ. Nous mesurons également le "taux

d’anomalie" défini comme la fraction de galaxies pour lesquelles |Δz/(1+zspec )| > 0.15. Si la

distribution résiduelle avait bien été décrite par une distribution de type gaussien, le choix de

σ68 correspondrait à l'écart type, et μ serait égal à la moyenne. Cependant, la plupart des

distributions résiduelles du redshift photométrique présentent de plus longues traînes et des pics

plus serrés qu’une distribution de type gaussien, l'écart type n'est donc pas représentatif de la

dispersion des données.

Pour AdaBoost, nous explorons 500 fois aléatoirement l'espace d’hyperparamètres et

choisissons la machine entraînée dont la valeur mesurée sur le jeu de validation croisée est la

plus basse, soit σ68. De même, nous sélectionnons, parmi les quelques modèles de DNNs que

nous avons explorés, celui dont la valeur de σ68 est la plus basse de l’échantillon de validation

croisée.

Une fois la décision du modèle final prise pour les deux MLA, nous passons l'échantillon de

galaxies test – qui n'est ni utilisé durant la phase d’entraînement ni durant la phase de sélection

du modèle – dans chaque MLA, afin d’obtenir un jeu final de redshifts photométriques par

apprentissage automatique. Ce que nous obtenons est donc une estimation sans biais de la

176

capacité des MLA à réaliser des estimations de redshifts pour d'autres galaxies, cependant ces

galaxies doivent être semblables à celles de l'échantillon d’entraînement. Nous construisons de

nouveau le vecteur résiduel de redshift et nous mesurons les mêmes statistiques qu'auparavant.

[…]

5. Discussion et conclusion

Disposer d’estimations de redshifts photométriques robustes est un élément essentiel, qui

permet de maximiser les données cosmologiques disponibles grâce aux relevés galactiques

actuels et à venir. Les travaux récents (Rau et al., 2015) montrent qu’une mauvaise estimation

de la distribution du redshift pour un échantillon de galaxies induit des biais sur de nombreuses

analyses de fonctions de corrélation, et d’autres travaux montrent les effets de ces biais sur la

cosmologie (par ex. Parti et al., 0000).

Jusqu’à présent, pour estimer le redshift photométriques, les valeurs étaient extraites d’images

de galaxies en fonction de critères jugés représentatifs par l’utilisateur. En règle générale, les

valeurs extraites sont des flux qui dépendent de la taille de l’ouverture photométrique choisie,

ou des rayons formant l’aspect du profil de la galaxie. Les quantités extraites peuvent soit être

comparées aux modèles théoriques de l’évolution des galaxies, par exemple pour les méthodes

utilisant des modèles, soit être utilisées pour déduire la relation entre les valeurs mesurées et le

redshift spectroscopique, pour un sous-échantillon de données dont les redshifts sont connus,

par exemple en employant des méthodes classiques d’apprentissage automatique.

Pour ce travail, nous proposons une méthode totalement nouvelle d’estimation des redshifts

photométriques, qui consiste à passer l’image de la galaxie complète dans un DNN. Le principal

avantage de cette méthode est que l’utilisateur ne porte pas préjudice à l’analyse durant la phase

de sélection des propriétés mesurées extraites de l’image de galaxie a priori. Cette approche

peut être considérée comme le cas le plus extrême de classification des éléments

caractéristiques par ordre d’importance (Hoyle et al., 2015). Cette classification des

caractéristiques de galaxies s’effectue en fonction de leur pouvoir prédictif pour la réalisation

d’une tâche cible. Dans notre approche, les caractéristiques ne sont pas choisies a priori, mais

apprises durant la phase d’entraînement.

[…]

177

5.3 Fiche WordSketch du terme redsfhit

Figure 22 – Fiche WordSketch du terme redshift

178

5.3.1 V + beyond the scope of this + N

179

5.3.2 For + N + the reader is referred to + N

180


Deep Learning for Photo-Z estimation

cosmology

observational cosmology

computing

machine learning

deep learning

physical cosmology

astrophysics

survey

infrared astronomy

astronomy

galaxy

galaxy group galaxy cluster

gravitationally

bound objects

scale

<50 >50

supercluster

galaxy filaments

supercluster complexes

galaxy walls galaxy sheets

studies

photo-z

template

fitting

machine

learning

techniquesdata

augmentation

hybrid method

redshift survey

stellar population ...

spectral energy

distribution

templates

templates

galaxy data

galaxy images

photometric galaxy features

deep learning architectures

classifiers

parameters

weight hyperparameter

models

artificial neural networks decision trees

boosted treesdeep neural

networks

optimisation

gradient

descentoverfitting

predictive

power

LEGEND

subject

term

technique

method

holonym of

employs

hyperonym of

studies

estimation

pipeline

data preconditionning

training phase testing phase validation phase

temporal

magnitudes

colours

photometric

pipeline

applications

computer vision

image acquisition

preprocessing

feature extraction high-level processing

measures

feature importance

photo-z

estimation

results in

learning algorithm training sample

template

fitting

machine

learning

techniques

internal nodes

attributes

decision node chance node end node

is a function of

backpropagation algorithm

photometry

electromagnetic spectrum of an

object

passband filter

multi-band

photometric pipeline

182


183

5.3.4 Glossaire et fiches courtes

Terme anglais Terme français algorithm Algorithme angular extent étendue angulaire artificial neural network réseau de neurones artificiels astronomical data données astronomiques astronomy astronomie astrostatistics astrostatistiques backpropagation algorithm rétropropagation du gradient Bayesian approach approche bayésienne bin classe binning groupement des données par classe blueshift décalage vers le bleu box boîte branch branche charge coupled device dispositif à transfert de charge child node noeud enfant classification classification classifier classifieur colour couleur computing informatique convolution convolution convolutional neural network réseau de neurones à convolution cosmography cosmographie curse of dimensionality fléau de la dimensionnalité data augmentation augmentation des données data set jeu de données De Vaucouleurs De Vaucouleurs decision tree arbre de décision deep learning apprentissage profond deep neural network réseau de neurones profonds empirical method méthode empirique exponential exponentiel feature caractéristique feedforward neural network réseau neuronal sans rétroaction filter filtre filter bank banc de filtres flat fielding correction de champ plats fully-connected entièrement connecté galactic extinction extinction galactique galaxy data donnée de galaxie galaxy image image de galaxie hidden layer couche cachée

184

high dimensional box boîte haute dimension high-dimensional data donnée haute dimension hyperbox hyperboîte image acquisition acquisition d'image image processing traitement d'image input data donnée d'entrée input layer couche d'entrée interstellar absorption absorption interstellaire interstellar extinction extinction interstellaire leaf feuille leaf node noeud de feuille learning algorithm algorithme d'apprentissage light profiles profils de brillance linear transformation transformation linéaire machine learning apprentissage automatique machine learning models modèle d'apprentissage automatique magnitude magnitude mean deviation écart moyen method méthode neural network architecture architecture de réseau de neurones node noeud non-linear transformation transformation non-linéaire observational cosmology cosmologie observationnelle observational effects correction correction d'effets observationnels optical spectrum spectre optique optimisation algorithm algorithme d'optimisation outlier observation aberrante outlier rate valeur aberrante output layer couche de sortie performance performance phenomenon phénomène photometer photomètre photometric band bande photométrique photometric redshift redshift photométrique photometric redshift measurement mesure du redshift photométrique photometric residual distribution distribution des résidus photométriques photometric survey relevé photométrique photometric system système photométrique photometry photométrie photon energy loss perte énergétique des photons predictive power pouvoir prédictif radii rayons random forest forêt d'arbres décisionnels receptive field champ récepteur redshift redshift redshift measurement method méthode de mesure du redshift redshift survey relevé de redshift

185

reference frame cadre de référence reinforcement learning apprentissage par renforcement residual vector vecteur résiduel root node noeud racine sibling child node noeud-frère sky subtraction soustraction du ciel spatial pooling pooling spatial spectral band bande spectrale spectral break rupture spectrale spectral feature caractéristique spectrale multi-band multibande spectral template modèle spectral spectroscopic redshift redshift spectroscopique spectroscopic survey relevé spectroscopique standard deviation écart type statistical tool outil statistique stochastic gradient descent algorithm algorithme de descente de gradient

stochastique supervised learning apprentissage supervisé survey relevé task tâche telescope télescope template fitting technique technique d'ajustement de modèles template method méthode utilisant des modèles training algorithm alorithme d'entraînement training data set jeu de données d'entraînement training rounds phases d'entraînement transfer learning apprentissage par transfert unsupervised learning apprentissage non supervisé wavelength longueur d'onde

186

5.3.5 Mails échangés avec l’auteur

187

Hi Julia,

Answers in line. I'm glad to hear you are making progress.

1) In the introduction:

"Some templates encode our knowledge of stellar population models which result in predictions for the evolution of galaxy magnitudes and colours"

-> Does the term "stellar population models" refer to "Stellar Population Synthesis Models" or does it refer to another concept?

Yes you are right. Sorry for my sloppy english!

-> Do "colours" refer more specifically to the "colour index"?

Now, I mean colours of galaxies, for example we observe galaxies in photometric bands, g,r.i.z and I make colors, which are the difference between two bands, g-r.

2) In section 2 Galaxy data and images:

"we choose to use the de-reddened model magnitudes in the g, r, i, z bands"

-> Does the verb "de-redden" mean you use the magnitudes of models in which the color red has been deleted? Or is "model magnitudes" a specific term?

this means that the magnitudes have been corrected for "galactic extinction". This is caused by the dust in our galaxy, and makes galaxies appear less bright (at bluer wavelenghts) than they actually are. We need to correct for this effect, so we get the true color or magnitude of the galaxy.

3) Throughout the text, I understand that the terms "features" and "properties" are synonyms that refer to the internal representation of the data generated by the machine learning model: DNNs extract features|properties and identify those with the best predictive power, in combination with attributes or other features (here, standard magnitudes, colours and r band Petrosian radii). Is this correct?

yes, that's sort of right. I would say properties are measured quantities of a galaxy. Features can be both these measure properties, and also the representations of the galaxy that the DEEP NN might extract.

188

4) "We then vary the hyperparameters of the machine learning architecture and retrain a new model"

"In future work we will provide a more detailed analysis of the effect of varying the hyper-parameter choices for the DNN architecture"

-> Concerning the verb "to vary", as it sometimes has a specific technical meaning in context, I would like to clarify if this is a part of "feature selection" that means "to select another variable/hyper-parameter", or if it means "to change the values of the hyper-parameters"?

It means "to select another variable/hyper-parameter" and see how it peforms, and then to "to select another variable/hyper-parameter" again ...

5) Concerning the term "photometric redshift", I have found the abbreviation "photo-z" in my corpus and they seem to be synonyms that can be used in the same way, or do you use them differently?

Correct they are exact synonyms. you may also see p(z) and z-phot, z_phot, phot_z

I will keep you posted on the advances of my work.

Documents

Utilisation de méthodes de deep learning pour la mesure du ...€¦ · le marketing ou l’informatique : il se confronte aux enjeux du Big Data, du data mining, de l’analyse prédictive