Upload
others
View
10
Download
0
Embed Size (px)
Citation preview
1
Julia Pagès
Master Pro ILTS Option Industrie de la Langue 2016/2017
Université Paris Diderot
Utilisation de méthodes de deep learning pour la
mesure du redshift photométrique
Using DNNs for Photo-Z Estimation
Directrices de mémoire :
Geneviève Bordet (recherche documentaire)
Maria Zimina (terminologie et traduction)
2
3
Table des matières
1 Introduction ........................................................................................................................ 9
1.1 Le choix du micro-domaine ..................................................................................... 9
1.2 Le texte et l’auteur ................................................................................................. 13
2 Protocole de recherche documentaire .............................................................................. 14
2.1 Un micro-domaine en expansion ........................................................................... 14
2.2 Le parcours de la recherche ................................................................................... 20
2.2.1 Le cheminement ................................................................................................. 20
2.2.2 Les experts .......................................................................................................... 22
2.3 Le paysage documentaire ou la fouille de données : à la recherche de pépites ..... 25
2.3.1 Paysage documentaire en en anglais .................................................................. 27
2.3.2 Paysage documentaire en français ...................................................................... 32
2.4 Deux cosmographies ou un seul et même cosmos ? .............................................. 35
2.5 Bibliographie commentée ...................................................................................... 37
2.6 Présentation des corpus .......................................................................................... 39
2.7 Gestion des corpus ................................................................................................. 42
3 La recherche terminologique ............................................................................................ 45
3.1 Les termes du micro-domaine ................................................................................ 45
3.1.1 Tableau des termes retenus pour les fiches longues et de leurs équivalents ...... 48
3.1.2 Analyse du terme « photometric redshift » ........................................................ 49
3.1.2.1 Analyse du terme « redshift » ......................................................................... 49
3.1.2.1.1 L’importance de la notion de « filtre » ....................................................... 54
3.1.2.1.2 Analyse du terme « photometric redshift » ................................................. 57
3.1.3 Analyse du terme « deep learning » ................................................................... 59
3.1.3.1.1 La polysémie du terme « filtre » ................................................................. 66
4
3.1.4 L’écosystème des statistiques : la métaphore de la nature ................................. 68
3.1.5 La variation autour des adjectifs, la siglaison et les abréviations ...................... 71
3.1.6 La normalisation ................................................................................................. 73
3.2 Les arborescences .................................................................................................. 74
3.2.1 L’arborescence en anglais .................................................................................. 75
3.2.2 L’arborescence en français ................................................................................. 77
3.3 Les collocations génériques ................................................................................... 79
3.3.1 V + beyond the scope of this + N ....................................................................... 80
3.3.2 For + stg + the reader is referred to + N ............................................................. 81
3.3.3 N + has/have been shown to be + Adj ................................................................ 82
3.3.4 This + N + draws from + stg .............................................................................. 83
3.3.5 To propose a + premodifier + framework + for + N .......................................... 84
3.4 Conseils et pistes pour la poursuite du travail terminologique .............................. 85
3.5 Conclusion sur le mémoire de terminologie .......................................................... 87
4 Mémoire de traduction ..................................................................................................... 88
4.1 Toute traduction est-elle un commentaire ? ........................................................... 88
4.2 Les impératifs traductologiques de l’article ........................................................... 89
4.2.1 Premières lectures et question d’échelle ............................................................ 90
4.2.2 Retranscrire la temporalité ................................................................................. 91
4.2.3 Comprendre et reformuler les notions au cœur de l’article ................................ 93
4.2.4 Intégrer des connaissances extralinguistiques à notre traduction ....................... 95
4.2.5 Approche sémasiologique et utilité de la transposition .................................... 101
4.2.6 Déchiffrer les sigles et les groupes nominaux complexes ................................ 104
4.2.7 Gagner en clarté et en cohérence ...................................................................... 107
4.2.8 Versions envisagées pour le titre et décision finale ......................................... 109
4.3 Conclusion sur le mémoire de traduction ............................................................ 111
4.4 Traduction alignée ............................................................................................... 112
5
5 Annexes .......................................................................................................................... 159
5.1 Texte source intégral ............................................................................................ 159
5.2 Traduction ............................................................................................................ 166
5.3 Fiche WordSketch du terme redsfhit ................................................................... 177
5.3.1 V + beyond the scope of this + N ..................................................................... 178
5.3.2 For + N + the reader is referred to + N............................................................. 179
5.3.3 Première arborescence ...................................................................................... 181
5.3.4 Glossaire et fiches courtes ................................................................................ 183
5.3.5 Mails échangés avec l’auteur ........................................................................... 186
6
7
Remerciements
Je tiens à remercier Ben Hoyle, qui m’a donné l’autorisation de traduire son texte et a accepté
de répondre à mes questions.
Je remercie également Sylvain Bernard, Pascal Gatesoupe, Giovanni Palma, Stéphane
Jacquemoud, Yana Popova et Vivien Scottez pour avoir consacré du temps à mon travail et
partagé leur expertise.
Enfin, je remercie mes directrices de mémoire, Geneviève Bordet et Maria Zimina, pour leur
regard critique et leur bienveillance.
8
9
1 Introduction
1.1 Le choix du micro-domaine
J’ai toujours été sensible aux nouvelles technologies, un domaine où les avancées sont
significatives et constantes. Les sujets qui captent particulièrement mon attention gravitent
autour du web design, des jeux vidéo, de la réalité virtuelle, de la réalité augmentée et du
développement de l’intelligence artificielle. Je lis donc régulièrement des revues scientifiques
sur ces sujets. J’assiste également à des salons sur l’innovation dans le but de comprendre les
évolutions et l’influence de l’informatisation dans notre vie quotidienne.
En mars 2016, j’apprends la victoire d’AlphaGo sur Lee Sedol, l’un des meilleurs joueurs de
Go au monde. AlphaGo est une intelligence artificielle développée par DeepMind, entreprise
affiliée à Google et conçue spécifiquement pour jouer au jeu de Go. Depuis la fin des années
80, les ordinateurs sont capables de venir à bout des joueurs humains aux échecs. Mais établir
un modèle probabiliste capable de tenir compte de la multiplicité des mouvements possibles à
chaque tour d’une partie de Go représentait une frontière symbolique pour l’intelligence
artificielle. Cette victoire me fascine d’emblée, elle semble marquer un cap dans le
développement de l’intelligence artificielle. Est-ce l’amorce d’un saut technologique ? Doit-on
s’en inquiéter, s’en réjouir, ou tout simplement relativiser son importance ?
10
En terrain inconnu, je décide d’approfondir mes connaissances sur cette victoire. De
nombreuses sociétés s’intéressent aux technologies de l’I.A., comme les grands noms de
l’industrie du numérique : Google, Microsoft, Facebook. L’algorithme AlphaGo utilise les
technologies de deep learning et plus spécifiquement une architecture dénommée réseau de
neurones profonds (Deep Neural Networks, DNNs). Je commence alors à suivre les
publications mentionnant le terme deep learning, que je repère dans des contextes en lien avec
le marketing ou l’informatique : il se confronte aux enjeux du Big Data, du data mining, de
l’analyse prédictive, et entre en cooccurrence avec des néologismes et de nouvelles expressions
comme « resume mining », « économie de la connaissance augmentée », « Tech for Good » ou
encore du credo high-tech « In Code We Trust ».
Les semaines passent, et c’est dans le cadre de mon alternance au sein du service de traduction
de l’entreprise General Electric Healthcare, dans le domaine de l’imagerie médicale, que
j’expérimente de manière plus concrète le rôle prépondérant du deep learning dans la
reconnaissance d’images. Lors d’une formation sur les différents systèmes de radiographie,
j’apprends que les réseaux de neurones sont de plus en plus intégrés aux procédures liées à
l’imagerie, puisqu’ils sont capables d’identifier un élément spécifique dans une image. Ainsi,
ils facilitent la lecture des radiographies et constituent une aide pour les spécialistes. Ce sont
les prémices d’une collaboration homme-machine1 qui aura probablement un impact disruptif :
par exemple, certaines tâches des radiologues pourraient disparaître.
1 Pour citer le Dr. Mark Michalski, directeur exécutif du Massachusetts General Hospital et du Brigham and
Women’s Hospital Center : « Au lieu de développer des technologies d’intelligence artificielle en vase clos, nous
devrions plutôt les concevoir à la manière de l’aide aux patients : comme un continuum regroupant aussi bien les
soins préventifs que les états pathologiques ».
Source : http://newsroom.gehealthcare.com/the-team-behind-the-future-of-ai-in-healthcare/
“Instead of building AI solutions in isolation, we should think about the technology the way we are growing to
think about patient care – as a continuum, spanning care areas and disease states,” said Mark Michalski, MD,
Executive Director of the Massachusetts General Hospital and Brigham and Women’s Hospital Center for Clinical
Data Science.
11
En parallèle, à l’Université, l’intervention d’Elsa Sklavounou, linguiste et informaticienne au
sein de la société Systran, nous apporte de nombreuses informations sur les réseaux de neurones
dans le domaine de la traduction : grâce à eux, les machines apprennent à tenir compte de
différents contextes, des variations de termes, et surtout à optimiser et à propager les données
corrigées vers les sorties de la traduction automatique.
Figure 1 – Le point d'ironie, symbole du Festival des idées
Je participe également au Festival des idées2 où j’assiste à plusieurs conférences organisées sur
l’intelligence artificielle, traitant de la singularité technologique, du transhumanisme, et du lien
entre l’être et la machine dans la science-fiction, des enjeux qui suscitent beaucoup d’intérêt et
d’interrogations. Les réseaux de neurones sont employés dans de nombreux champs
d’application, comme la reconnaissance vocale, la robotique, les véhicules autonomes, la
finance, l’assurance, la vision artificielle. Au fil de mes lectures, je découvre que, depuis
quelques années, des applications concrètes du deep learning existent dans le domaine de
l’astronomie. Ils permettent par exemple de classer les images de galaxies en fonction de leur
2 Le Festival des Idées, Université Sorbonne Paris Cité, Sessions 13 minutes, INALCO, 2016, Être et machine :
- Ganascia, Jean-Gabriel, La singularité technologique, Laboratoire d’Informatique de Paris 6.
- Cristina Lindenmeyer, L’humain augmenté et ses symptômes, Dr. en Psychologie et maître de conférence
à Paris Diderot
- Grimaud, Emmanuel, Anthropologue, Commissaire de l’exposition Étrangement humain au Quai Branly
- Devillers, Laurence, Machine affective et robot compagnon, Université Paris Sorbonne 4
- Kyrou, Axel, Être et machine dans la science-fiction en 10 axiomes : une libre improvisation, 2016
- de la Rosière, Francois, Créateur de la Compagnie La machine
12
morphologie. Passionnée d’astronomie, j’ai pu contempler les étoiles dans différentes
configurations célestes et expérimenter des phénomènes inoubliables, comme l’observation aux
aurores d’une éclipse lunaire dans le ciel du désert d’Atacama. L’idée d’approfondir mes
connaissances en astronomie tout en découvrant une méthode à la pointe de la technologie me
semble être une trajectoire passionnante.
Depuis le milieu du XXe siècle, l’informatique se développe à une vitesse exponentielle, et
aujourd’hui, les nouvelles technologies permettent d’étudier des champs de données de plus en
plus vastes et de les transformer en connaissances de plus en plus rapidement. En parcourant
des articles spécialisés traitant de galaxies lointaines et de phénomènes cosmologiques qui
m’étaient encore inconnus, je trouve mon sujet : la mesure photométrique du redshift grâce aux
réseaux de neurones. L’article de Ben Hoyle3 détaille une application récente de l’intelligence
artificielle qui pourrait permettre de traiter l’impressionnante quantité de données recueillie par
les derniers télescopes spatiaux et ainsi contribuer à améliorer notre connaissance de l’Univers.
Le cosmos a toujours captivé l’humanité, comme en témoignent les nombreuses mythologies
et représentations qu’elle a façonnées au fil des siècles. Depuis quelques années, nous avons
accès à un volume de données plus important sur l’Univers grâce aux nombreux relevés d’objets
astronomiques menés par les agences spatiales, que les astronomes et les cosmographes
s’appliquent à étudier pour mieux comprendre l’Univers dans son ensemble : son origine, sa
structure, son passé et son avenir. C’est donc le micro-domaine des technologies de deep
learning dédiées à la cosmographie que nous allons étudier dans ce mémoire.
3 Hoyle, Ben, Measuring photometric redshifts using galaxy images and Deep Neural Networks, Astronomy and Computing, Volume 16, July 2016, Pages 34-40, ISSN 2213-1337, http://dx.doi.org/10.1016/j.ascom.2016.03.006.
13
1.2 Le texte et l’auteur
Le texte que j’ai choisi s’intitule Measuring photometric redshifts using galaxy images and
Deep Neural Networks4. Il s’agit d’un article de recherche publié par Ben Hoyle en juillet 2016
dans la revue scientifique Astronomy and Computing.
Ben Hoyle est chercheur à l’Observatoire Wendelstein à l’Université Louis-et-Maximilien de
Munich. Il est spécialisé dans la mesure du redshift photométrique, la classification non
supervisée et l’analyse de données à grande échelle en cosmologie.
La revue Astronomy and Computing est une revue à comité de lecture de publication
internationale dédiée aux domaines de l’astronomie, de l’informatique et des technologies de
l’information.
L’article présente un nouveau système de mesure du redshift photométrique grâce aux réseaux
de neurones. Il s’adresse à trois types de spécialistes :
- les astronomes qui s’intéressent aux méthodes de deep learning ;
- les spécialistes du deep learning qui s’intéressent aux applications en astronomie ;
- et les spécialistes de ces deux domaines.
Certaines sections de l’article visent donc à transférer des connaissances à chacun de
ces profils.
4 Hoyle, Ben, Measuring photometric redshifts using galaxy images and Deep Neural Networks, Astronomy and Computing, Volume 16, July 2016, Pages 34-40, ISSN 2213-1337, http://dx.doi.org/10.1016/j.ascom.2016.03.006.
14
2 Protocole de recherche documentaire
2.1 Un micro-domaine en expansion
L’an 2000 marque le début du Sloan Digital Sky Survey5 (SDSS), un programme de relevé
d’objets célestes6 qui utilise un télescope optique situé à l'observatoire d'Apache Point, au
Nouveau-Mexique. En seulement quelques semaines, le nombre de données recueillies a
dépassé l’intégralité des données réunies dans l’histoire de l’astronomie. En 2010, la taille des
archives du programme s’élevait à 140 To. Pour avoir une idée de la progression exponentielle
qui s’amorce, le Large Synoptic Survey Telescope (LSST) devrait permettre de recueillir, dès
2019, grâce à son télescope situé au Chili, cette même quantité de données tous les cinq jours.
En août 2016, la NASA a rendu ses recherches scientifiques disponibles gratuitement sur la
base de données PubSpace7. Grâce à des innovations technologiques comme l’amélioration des
télescopes, la qualité et la complexité des données augmente de façon exponentielle. Pour la
première fois, les chercheurs ne sont pas en mesure d’analyser ce Big Data astronomique, tant
le volume des données est important. L’informatique et plus particulièrement le deep learning
ouvrent la voie à une nouvelle méthodologie pour analyser ces immenses bases de données.
L’informatique occupe une part de plus en plus importante en astronomie, la position des
télescopes peut dorénavant être contrôlée à distance et les astrophysiciens peuvent envoyer des
ordres d’observation par Internet. Prenons l’exemple du SDSS, l’utilisateur sélectionne la
région du ciel à observer et programme divers paramètres parmi une liste de données calibrées,
comme la magnitude absolue, la magnitude apparente, l’indice de couleur ou le rayon. Les
spectres et les images sont ensuite accessibles en ligne via une base de données Microsoft SQL
Server.
Lancé en 2007, le relevé astronomique collaboratif Galaxy Zoo8 propose aux astronomes
amateurs de contribuer à la classification de plus d’un million de galaxies : les internautes
5 http://www.sdss.org/ 6 Nous indiquons en gras les termes clés du domaine 7 https://www.ncbi.nlm.nih.gov/pmc/funder/nasa/ 8 https://www.galaxyzoo.org/
15
bénévoles peuvent donc enrichir les informations concernant les galaxies, comme leur type de
morphologie ou leurs particularités.
Au cœur de l’enjeu scientifique de ces relevés se trouve la question de la mesure des distances
en astronomie. La cosmographie consiste à déterminer la position et le mouvement des galaxies
dans l’Univers, en produisant des cartes dynamiques de l’espace qui nous entoure. Ces
connaissances scientifiques fondamentales façonnent notre représentation de l’Univers et du
paradigme dans lequel nous évoluons.
Redshift photométrique
De nombreuses méthodes permettent d’estimer les distances pour situer les galaxies : la
méthode des céphéides, les lois de Tully-Fisher et de Faber-Jackson, le principe cosmologique
et métrique FLRW, le redshift spectroscopique, et le redshift photométrique. Nous nous
intéresserons à cette dernière technique.
Le redshift est le phénomène astronomique correspondant au décalage spectral de la lumière
d’une galaxie vers les grandes longueurs d’onde9, c’est-à-dire vers le rouge sur le spectre
électromagnétique. C’est l’un des principaux indicateurs permettant de déterminer les distances
à l’échelle cosmologique. Dans les années 1920, Edwin Hubble découvrit que les galaxies
s’éloignent de nous à une vitesse directement proportionnelle à leur distance : ainsi, la relation
distance/redshift permet de déduire la distance de la galaxie.
Le décalage spectral peut être dû à l’effet Doppler, selon lequel la longueur des ondes
électromagnétiques sera plus courte pour un objet qui se rapproche et plus allongée lorsque
l’objet s’éloigne. Le phénomène de l’effet Doppler rend les ondes sonores des sirènes
d’ambulances plus aigües lorsqu’elles sont proches de nous (décalage vers le bleu) et plus
basses lorsqu’elles s’éloignent (décalage vers le rouge). Dans le cas du redshift cosmologique,
le décalage spectral est dû à l’expansion de l’Univers : à l’expansion de l’espace lui-même. Il
s’agit exclusivement d’un décalage vers le rouge.
9 Définition inspirée de Bentot, Sophie, Master 2 ILTS 2014-2015, Base Artes, UFR EILA, Université Paris Diderot Paris 7, PRES Sorbonne Paris Cité
16
La technique du redshift photométrique a été élaborée par Baum en 1962. Elle consiste à utiliser
un photomètre multi-bandes contenant de larges bandes spectrales dotées de filtres très
puissants afin de mesurer le flux de lumière reçu des galaxies. Il est ainsi possible d’effectuer
des observations photométriques pour des longueurs d’onde précises. Les filtres permettent
ainsi d’obtenir les couleurs de galaxies, d’extraire d’autres valeurs comme la magnitude, le
rayon, l’écart angulaire, et de produire des courbes spectrales à partir des différents filtres. C’est
grâce à l’étude de la distribution spectrale d’énergie, et à l’identification de ruptures spectrales
caractéristiques : par exemple lorsque la courbe révèle des accidents, des sauts, ou des creux,
qu’il est possible d’identifier la longueur d’onde. Parmi ces formes caractéristiques figurent le
saut de Lyman, le saut de Balmer, le saut à 4000 Anström, etc. Ces références permettent
d’estimer la distance de certaines galaxies.
Le deep learning
La photométrie peut être associée au deep learning (ou apprentissage profond) qui emploie une
famille d’algorithmes d’apprentissage automatique (machine learning), pour entraîner des
réseaux de neurones.
Le deep learning existe depuis 1986, mais depuis 2006 la recherche connaît des progrès
constants et rapides : elle est devenue l’un des principaux axes de recherche de l’intelligence
artificielle.
Cette méthode consiste à entraîner un réseau comprenant plusieurs couches internes dans
l’optique de construire une architecture hiérarchique : en élaborant une succession de
représentations, qui sont à chaque fois transmises à une nouvelle couche de neurones. Les
algorithmes permettent de propager les données de la couche d’entrée vers la couche de sortie.
Les modèles de deep learning sont inspirés directement du cerveau humain, et ont tenté de
reconstruire les réseaux et la structure d’un neurone : la morphologie générale d’un neurone
organique est constituée d’un corps cellulaire comprenant le noyau, le réseau d’entrées et
l’axone véhiculant l’influx nerveux en sortie ; les dendrites correspondent ainsi aux entrées du
neurone et l’axone à sa sortie.
17
Figure 2 : Schéma d’un réseau de neurones profonds10
De la même façon, un réseau de neurones artificiels sera constitué d’une couche d’entrée qui
reçoit les données initiales, de plusieurs couches internes cachées, et d’une couche de sortie.
La couche d’entrée n’a qu’une fonction : présenter les données à la couche suivante, toutes les
autres couches internes utiliseront en revanche des algorithmes pour propager les
informations aux couches suivantes. La rétropropagation de l’erreur permet de corriger les
poids synaptiques des neurones proportionnellement à l’erreur générée lors de
l’entraînement :
- Dans un premier temps, la sortie du réseau propage les données d’apprentissage de
l’entrée vers la sortie ;
- puis la différence entre la sortie désirée et la sortie obtenue définit l’erreur ;
- enfin, l’erreur est rétropropagée dans le réseau en sens inverse, afin de corriger les poids
synaptiques.
10 Nielsen, Michael, Neural Networks and Deep Learning, 2017, http://neuralnetworksanddeeplearning.com/chap6.html
18
Figure 3 : Schéma du sens de propagation et de rétropropagation11
La procédure d’apprentissage s’effectue en ajustant les poids synaptiques et en propageant le
gradient de l’erreur (« l’algorithme du gradient » : le chemin, la pente, vers le point minimum
de l’erreur, soit le résultat le plus optimal) en sens inverse. Plus il y a de poids, plus il y aura de
connexions et de dimensions à prendre en compte, et plus il sera difficile de trouver le
minimum.
11 Fokou, Anicet, et al., The Marvin Project, Site web : http://themarvinproject.free.fr/final/node3.html
19
Figure 4 : Algorithme de gradient conjugué en trois dimensions12
Pour la reconnaissance d’images, les réseaux convolutifs sont les plus adaptés, ils permettent
de dédier des couches à l’apprentissage de prétraitements, afin d’extraire les caractéristiques de
l’image : par exemple, extraire les valeurs de magnitude, les indices de couleur d’une photo de
galaxie. La capacité particulière de ces réseaux est qu’ils peuvent transformer une
problématique en une série de petites étapes : ainsi la tâche de reconnaissance est subdivisée en
plusieurs petites tâches abstraites et conceptuelles. Un réseau plus classique peut ensuite
effectuer la tâche de régression, de classification : par exemple la reconnaissance d’image de
galaxie basée sur des critères morphologiques.
Dans l’approche du deep learning, les données sont essentielles : il faut privilégier le nombre
d’exemples dans le jeu de données d’apprentissage, plutôt que d’effectuer de multiples
prétraitements. Mieux vaut générer plusieurs images à partir d’une image donnée, par exemple
en effectuant des transformations par translation, rotation ou changement d’échelle, pour éviter
d’avoir à appliquer des prétraitements visant à repositionner l’image dans la position idéale.
Cette étape est celle de l’augmentation des données d’apprentissage.
12 Site web : National Instruments, Gradient conjugué - nD (VI), juin 2012
20
2.2 Le parcours de la recherche
2.2.1 Le cheminement
Le deep learning est un domaine vaste et technique, le premier enjeu allait donc être de délimiter
clairement mon sujet. Initialement, j’avais émis l’idée de travailler sur un texte de revue du
domaine13 qui avait pour avantage de présenter clairement le domaine du deep learning et ses
applications. Je suis partie sur cette base pour constituer un corpus à partir des références
mentionnées dans l’article. Des recherches documentaires pointues allaient être nécessaires
pour comprendre les enjeux du domaine. J’ai donc mené mes premières recherches sur le
moteur de recherche Google Scholar dans ses versions anglaise et française, et mis en place des
alertes pour le terme deep learning. Grâce aux abonnements en ligne de la bibliothèque Paris
Diderot aux plateformes ScienceDirect, à JSTOR, et aux nombreuses revues comme Nature et
le journal International Journal of Computer Vision, j’ai pu réunir de nombreux documents
assez rapidement. J’ai également trouvé de nombreuses thèses sur les sites Tel14, Hal15, le
portail theses.fr16. La lecture de ces diverses sources et variées – des articles de recherche, des
thèses, et la consultation des premiers livres de vulgarisation sur le deep learning, que je
détaillerai plus avant – m’a permis de réaliser les premières extractions terminologiques17 sur
la base de critères statistiques et de développer mes premières intuitions sur certains termes et
mots-clés du domaine : « deep neural networks », « machine learning », « pattern
recognition », « features », « computer vision ». Je commençais à assimiler certains concepts
centraux du domaine et je rentrais de plain-pied dans un domaine qui devenait toujours plus
technique dès qu’il trouvait un nouveau champ d’application. Une des difficultés a été devoir
sélectionner le texte le plus pertinent pour la traduction : j’avais retenu une dizaine de candidats-
textes dans divers domaines d’application, notamment un article (Karpathy, 2015)18 qui
présentait la capacité des réseaux de neurones à analyser une image et à produire une description
sémantique précise de celle-ci. J’ai longuement hésité avant de prendre une décision face à la
13 LeCun, Yan, et al., Deep learning, Nature 521, 436–444, 27 May 2015 14 https://tel.archives-ouvertes.fr 15 https://hal.archives-ouvertes.fr 16 http://theses.fr/ 17 En utilisant le logiciel Antconc et l’outil de gestion de corpus en ligne Sketch Engine 18 Karpathy, Andrej, et al., Deep Visual-Semantic Alignments for Generating Image Descriptions, Department of Computer Science, Stanford University, April 2015
21
multiplicité des domaines d’application, qui me semblaient tous potentiellement intéressants
pour l’exercice. Parmi les champs d’application retenus, l’un d’entre eux était l’astronomie, un
sujet qui m’a toujours passionnée. J’ai alors affiné mes recherches en ajoutant de nouveaux
mots-clés : « astronomy », « cosmology », « cosmography ». J’ai ainsi trouvé l’article de Ben
Hoyle, qui présentait de nombreux enjeux tant au niveau de la compréhension des notions et
des techniques abordées que de la terminologie, et j’ai décidé de choisir ce texte pour ma
traduction. Le second élément déclencheur a été la lecture d’une interview19 de Françoise
Combes, astronome à l’Observatoire de Paris et membre de l’Académie des Sciences. Cet
article m’a beaucoup aidée à comprendre l’utilité des relevés d’objets astronomiques et le rôle
fondamental du machine learning en astronomie, cela m’a confortée dans mon choix pour le
texte et le domaine d’application. Un autre article (Zhang, 2015)20 m’a également fourni de
nombreuses références : des conférences, des noms de laboratoires et des pistes vers d’autres
relevés galactiques à étudier.
L’article que j’ai choisi se situe à l’intersection de trois domaines spécialisés. L’auteur emploie
donc un discours, une terminologie et une phraséologie qui sont caractéristiques de ce
microdomaine. Dans les domaines de la terminologie et de la traductologie, ce métalangage
n’est pas encore figé et de nombreux spécialistes adoptent des termes différents selon le cadre
théorique dans lequel ils s’inscrivent. Tout au long de ce mémoire, nous entendons par langue
de spécialité, un discours partagé par une communauté dans un domaine spécifique. Ce discours
est différent de celui de la langue générale. Toute langue de spécialité comporte un vocabulaire
spécialisé : la terminologie, mais aussi une phraséologie, des structures de discours spécifiques
et des tendances. La langue de spécialité (LSP) de notre microdomaine est la « somme » de
trois LSP : la LSP de l’astronomie (qui elle-même inclut celle des mathématiques et des
probabilités), la LSP du deep learning et la LSP de la photométrie. De surcroît, comme évoqué
dans la présentation (Section 1.2) du texte, l’objectif de certaines parties de l’article est de
transférer certaines informations aux spécialistes d’un autre domaine.
Ma méthodologie pour mieux comprendre les enjeux des trois domaines et me familiariser avec
leur terminologie reposait sur une double démarche :
19 Comment l’informatique a révolutionné l’astronomie, Le Monde, Interview Françoise Combes, septembre 2014 20 Zhang, Y. & Zhao, Y., (2015). Astronomy in the Big Data Era. Data Science Journal. 14, p.11. DOI: http://doi.org/10.5334/dsj-2015-011
22
- une approche systémique visant à réunir, parcourir et classer un maximum de textes sur
le deep learning (mon domaine central de départ) ;
- et une approche empirique visant à comprendre les notions fondamentales, en discutant
avec les experts du domaine que j’ai contactés (cf. section 2.2.1), en me rendant à la
bibliothèque en quête d’ouvrages de vulgarisation, et en assistant à des conférences en
lien avec le sujet.
Durant les six mois dont je disposais, j’ai ainsi pu recueillir beaucoup d’informations et de
textes réunissant les caractéristiques des LSP de ce domaine, tant au niveau de la transmission
d’informations que des représentations socioculturelles dans lesquels ils s’inscrivent.
Ces tâches m’ont permis de trouver les « briques de base » pour constituer deux corpus
représentatifs du domaine, qui me permettraient de valider en contexte mes intuitions
concernant les termes à étudier.
La difficulté suivante a été de construire l’arborescence, que j’envisageais uniquement sous
l’angle du deep learning. Certes, je souhaitais initialement me concentrer sur ce domaine, mais
l’article choisi évoque également des techniques de photométrie dont j’allais nécessairement
devoir étudier la terminologie. Le deep learning est inter et multi-disciplinaire : il prend racine
dans un champ d’application, mais il est souvent employé en combinaison avec des méthodes
hybrides comme des arbres de décision statistiques. Un quatrième axe venait donc s’ajouter à
mes recherches : le domaine statistique. Face à cette complexité, la structuration de
l’arborescence devenait de plus en plus difficile. En échangeant avec Madame Bordet, il
convenait de revoir l’arborescence en y plaçant l’article au centre : cela m’a permis d’aboutir à
une première arborescence. Sur cette base, j’ai pu commencer à conceptualiser le domaine,
même si cette première version d'arborescence allait ensuite connaître de nombreuses
évolutions (nous présenterons l’arborescence finale dans la section 3.2). Mais c’est ainsi que
j’ai pu affiner et redéfinir mon sujet.
2.2.2 Les experts
Les échanges avec les experts sont au cœur de mon parcours de recherche. Tout comme la partie
recherche documentaire, mon cheminement s’est fait en plusieurs étapes, au fil de ma
compréhension de chacun des domaines et des croisements et liens qui se tissaient entre eux.
Dès le départ, l’auteur du texte, Ben Hoyle, a accepté de tenir le rôle d’expert anglophone, ce
qui m’a permis d’éclaircir des points de compréhension et de terminologie.
23
Dans le cadre de mon alternance au sein de la société GE Healthcare, j’ai eu l’opportunité
d’échanger avec des spécialistes de l’imagerie médicale : Sylvain Bernard, Pascal
Gatesoupe, Giovanni Palma, et Yana Popova 21, qui connaissent ou utilisent des méthodes de
deep learning. Les entretiens qu’ils m’ont accordés m’ont permis de mieux appréhender les
enjeux de ce domaine et de saisir le terme feature et la notion de classement qui le relie au terme
feature importance. J’ai également pu vérifier certains points de compréhension de la section
dédiée aux réseaux de neurones, que j’aborderai dans le commentaire de traduction.
Dans un second temps, ayant travaillé l’an dernier sur un projet traductologique et
terminologique en partenariat avec des élèves de l’Institut de Physique du Globe de Paris, je
me suis tournée vers cet institut et j’ai contacté le Dr. Stéphane Jacquemoud22, expert en
télédétection et techniques spatiales, qui m’a aidée sur plusieurs points de reformulation de
certains passages de la traduction afin de gagner en précision scientifique.
Enfin, pour répondre aux dernières questions qui nécessitaient de mobiliser les connaissances
d’un expert des trois domaines : astronomie, photométrie et deep learning, j’ai contacté le
Dr. Vivien Scottez23, astrophysicien à l'Institut d'Astrophysique de Paris et spécialiste du
Clustering Redshift. Sa thèse : Clustering redshift : une nouvelle fenêtre sur l’univers24, figurait
dans mon corpus et c’est le document qui revenait statistiquement le plus souvent lorsque je
21 Sylvain Bernard, Project Leader, Engineering/Technology; HC IMG Detection & Guidance Solutions;
Healthcare Imaging
Pascal Gatesoupe; Principal Engineer, Engineering/Technology; HC IMG Detection & Guidance Solutions,
Healthcare Imaging
Giovanni Palma; Applications Engineer; Engineering/Technology; HC IMG Detection & Guidance Solutions;
Healthcare Imaging
Yana Popova, Senior Engineer, Engineering; Technology; Department HC IMG-Detection & Guidance Solutions;
Healthcare Imaging
22 Stéphane Jacquemoud, Chercheur et Professeur à l’Institut de physique du globe de Paris en Télédétection et
techniques spatiales.
24 Vivien Scottez et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015
24
cherchais des contextes pour m’aider à traduire le texte ou à tisser certains liens sémantiques
entre les termes. Il se trouve que c’est l’une des rares thèses traitant du microdomaine en
français. Lors d’un entretien, le Dr. Vivien Scottez m’a expliqué que les astrophysiciens doivent
maîtriser l’informatique car ces métiers vont désormais de pair. Sa thèse a été une vraie mine
d’informations dont j’évoquerai de nombreux exemples dans le mémoire terminologique. Il m’a
également donné de nouvelles pistes comme des références d’ouvrages et des liens vers des
MOOCS.
Pour conclure, j’ai assisté au salon Viva Technology25, un salon mondial dédié aux jeunes
pousses de l’innovation positive qui utilisent des méthodes d’intelligence artificielle et des
technologies high-tech. Plusieurs conférences ont attiré mon attention, notamment une
conférence autour de l’expression « Tech for good ». Derrière cette expression figurent les
concepts d’innovation sociale, la volonté d’avoir un impact environnemental et sociétal positif,
on parle d’« écosystème Health+Tech ». En somme, nous pourrions y voir une approche
biomimétique qui rejoindrait la vision de Mark Michalski26 cité plus haut, avec une réelle
volonté de comprendre ces nouveaux écosystèmes, que l’on commence à peine à défricher, tout
en restant dans un continuum. Nous élaborerons cette idée dans la section 3.1.4 en analysant
notamment les termes « random forest » et « decision tree ».
En ce qui concerne le deep learning, toujours durant le même salon dédié à la technologie,
l’intervenant Jean-Daniel Zucker27 confirme ce que m’avait indiqué le Dr. Scottez : dorénavant,
l’algorithmique fera partie intégrante de nombreux métiers où l’on ne s’attendrait pas du tout à
en trouver. Les outils sont si puissants que l’on parle même de l’amorce d’une « 3ème
Révolution Industrielle ». S’il existe beaucoup plus de MOOCS que de formations présentielles
25 https://vivatechnology.com/ 26 Mark Michalski, directeur exécutif du Massachusetts General Hospital et du Brigham and Women’s Hospital
Center : « Au lieu de développer des technologies d’intelligence artificielle en vase clos, nous devrions plutôt les
concevoir à la manière de l’aide aux patients : comme un continuum regroupant aussi bien les soins préventifs que
les états pathologiques ».
Source : http://newsroom.gehealthcare.com/the-team-behind-the-future-of-ai-in-healthcare/
27 Jean-Daniel Zucker, Directeur de recherche de 1ere classe à l’IRD, Institut de recherche pour le développement. Intervenant lors de la conférence, Les Spécialistes Datas Au Service De La 3ème Révolution Industrielle, Salon Viva Technology, 17 juin 2016
25
à l’université, c’est parce que l’offre des universités est insuffisante, face au nombre d’étudiants
souhaitant se spécialiser sur ces outils à la pointe de la technologie. Nous détaillerons ces points
dans le paysage documentaire.
2.3 Le paysage documentaire ou la fouille de données : à la
recherche de pépites
Au début de mes recherches, le domaine d’application n’était pas clairement défini, c’est
pourquoi j’ai recueilli des textes relevant d’un large éventail de sous-domaines (comme le
marketing, la bio-informatique, la médecine) pour créer un corpus anglais. Certes, l’application
que j’ai choisie au final : l’astronomie, s’éloigne de ces sous-domaines, mais il me semble que
ces textes ont toujours leur place dans mon corpus, puisque la LSP de ces documents reste bel
et bien celle du deep learning. J’ai créé différents sous-corpus en fonction de ces champs
d’application, en partant tout d’abord des mots-clés relevés dans les articles de revue dans un
premier temps, ou de mots-clés issus de l’article à traduire, que j’avais identifiés comme étant
intéressants pour ma traduction, comme le terme « feature ».
26
Dans un second temps, je me suis interrogée sur les acteurs du micro-domaine et j’ai fait une liste des différents axes à envisager par sous-domaine.
Voici la cartographie des acteurs du domaine et des ressources qu’elles proposent.
27
2.3.1 Paysage documentaire en en anglais
Deep Learning
Les universités, les laboratoires et les centres de recherche sont les principaux acteurs du
domaine, pour en citer quelques-unes : l'Université Carnegie-Mellon, Pennsylvanie, qui a une
unité d'enseignement et de recherche dédiée au machine learning ; le Massachusetts Institute of
Technology (MIT) ; le NYU Computer Science Department ; le Center for Statistics and
Machine Learning - Princeton University ; le département d’informatique de l’université de
Toronto.
Les publications d’articles scientifiques, d’articles de revue sont nombreuses dans le domaine
du machine learning, et beaucoup se spécialisent dans le deep learning. Parmi les nombreux
spécialistes du domaine, nous pouvons citer Yan LeCun28, Andrew Ng, Yoshua Bengio. Nous
trouvons de nombreuses thèses29 en anglais sur ce domaine en émergence.
Comme nous l’avons mentionné plus haut, les universités proposent de plus en plus de cours
en ligne, parmi les MOOCS les plus suivis figure celui de l'Université de Stanford, enseigné
par Andrew Ng, Professeur associé au Département de science informatique de l'université
Stanford et spécialiste du machine learning comptant une centaine de publications scientifiques
sur le sujet 30. J’ai suivi quelques cours d’introduction au domaine sur la plate-forme Coursera,
qui m’avaient été vivement recommandés par Vivien Scottez.
Les acteurs de l’industrie du high-tech comme par exemple les constructeurs de matériel
informatique abordent également le domaine sur leur site web, généralement dans un but
28 LeCun, Yan, et al., Deep learning, Nature 521, 436–444, 27 May 2015 Zhang, Y. & Zhao, Y., (2015). Astronomy in the Big Data Era. Data Science Journal. 14, p.11. DOI: http://doi.org/10.5334/dsj-2015-011 29 Par exemple : Du Buisson, Lise, Machine Learning in Astronomy, Department of Mathematics and Applied Mathematics, University of Cape Town, May 2015 30 https://www.coursera.org/learn/machine-learning
28
marketing visant à définir l’image de la marque, ou à présenter le catalogue de leurs produits.
Par exemple, j’ai trouvé le site de la société NVIDIA – un fournisseur de processeurs graphiques
et de cartes graphiques, entre autres – particulièrement intéressant puisque le site est traduit en
31 langues. Le constructeur a dédié une section entière au deep learning31. Un autre exemple
de site web intéressant est celui de la société britannique DeepMind, qui a été rachetée par
Google en 2014 et a développé le programme AlphaGo. L’approche de la société est à la fois
de développer des architectures d’intelligence artificielle les plus performantes possibles, et de
comprendre le fonctionnement du cerveau humain.
Les start-ups ou jeunes pousses sont également très visibles sur Internet. Multidisciplinaires,
elles s’intéressent à toutes les applications du deep learning mentionnées plus haut. Par
exemple, le site de la société BayLabs32 (cf. note de bas de page) qui se spécialise dans le secteur
de la santé. Ces sites web ont principalement des objectifs marketing de définition de leur image
de marque et de présentation des produits et des applications concrètes que les entreprises
proposent.
Enfin, les communautés technophiles sont très actives sur Internet : nous trouvons des forums
de passionnés, des pages personnelles, et de nombreux événements comme des salons : par
exemple, le Playfair AI Summit33, qui s’est tenu en juillet 2016 à Londres, et explore les
frontières de la recherche dans le domaine de l’intelligence artificielle ; ou encore des
conférences dédiées aux spécialistes telles que les conférences Neural Information Processing
Systems34 et Women in Machine Learning35. Ces conférences sont ouvertes aux acteurs de
l’industrie du high-tech, aux spécialistes du domaine, comme au grand public.
Enifn, un salon sur le deep learning s’est tenu en Chine en mars 2017, le “China’s National
Engineering Laboratory of Deep Learning Technology” sur le campus de la société
Baidu36 : une entreprise dédiée aux services sur Internet dont le moteur de recherche est le site
le plus consulté en Chine à l’heure actuelle et figure parmi les cinq sites les plus consultés au
niveau mondial.
31 Site de la société NVIDIA, section dédiée au deep learning : https://www.nvidia.co.uk/deep-learning-ai/ 32 Site de la société BayLabs: https://baylabs.io/ 33 Playfair AI Summit : https://playfairaisummit2016.splashthat.com/ 34 https://nips.cc/Conferences/2017/CallForWorkshops 35 http://wimlworkshop.org/ 36 http://research.baidu.com/
29
Astronomie
Les institutions : le site web de la NASA37, l'agence gouvernementale responsable de la
majeure partie du programme spatial civil des États-Unis a rendu ses recherches scientifiques
disponibles gratuitement sur la base de données PubSpace en 2016.
Les acteurs du domaine sont essentiellement des universités, des laboratoires et des centres
de recherche, dont voici quelques exemples :
- Aux Etats-Unis et au Canada :
Massachusetts Institute of Technology (MIT), Harvard University, Stanford University,
University of Cambridge, University of California, Berkeley (UCB), University of Oxford,
California Institute of Technology (Caltech), Princeton University, University of Tokyo, ETH
Zurich.
- En Europe :
Ludwig-Maximilians-Universität München, Technische Universität München (TU Munich),
KIT, Karlsruhe Institute of Technology, Imperial College London, University of Manchester.
- En Asie :
Peking University, Tsinghua University, Seoul National University.
- En Australie et en Nouvelle Zélande :
University of Melbourne, Australian National University.
- En Amérique Latine :
Universidade de São Paulo, Universidade Estadual de Campinas (Unicamp), Universidade
Federal do Rio de Janeiro, Pontificia Universidad Católica de Chile, Universidad Nacional
Autónoma de México.
- En Afrique et au Moyen-Orient :
Technion Israel Institute of Technology, King Abdullah University of Science & Technology,
University of Cape Town.
37 https://www.nasa.gov/
30
Leurs publications sont des articles scientifiques, des thèses. Des conférences se tiennent
régulièrement et sont souvent filmées et mises en ligne ; nous trouvons également des posters
de communication autour de ces conférences, ainsi que des MOOCS.
De nombreux livres sont également publiés sur le sujet, et peuvent s’adresser aussi bien au
grand public qu’aux passionnés ou aux spécialistes du domaine.
Les planétariums, les observatoires et les musées sont également des mines d’informations,
pour citer quelques exemples nous évoquerons le Hayden Planetarium à New York et le Samuel
Oschin Planetarium à Los Angeles. Ceux-ci disposent de pages web destinées au grand public,
de catalogues, de brochures, de posters, etc.
Les relevés astronomiques :
Voici une liste des principaux relevés astronomiques :
DPOSS (The Palomar Digital Sky Survey), 2MASS (The Two Micron All-Sky Survey), GBT
(Green Bank Telescope), GALEX (The Galaxy Evolution Explorer), SDSS (The Sloan Digital
Sky Survey), SkyMapper Southern Sky Survey, PanSTARRS (The Panoramic Survey
Telescope and Rapid Response System), LSST (The Large Synoptic Survey Telescope), SKA
(The Square Kilometer Array).
Sur Internet, nous trouvons de nombreuses communautés d’astronomes amateurs. Il s’agit
principalement de passionnés, qui participent sur des forums tels que : l'International
Astronomy Forum, le Stargazers Lounge. Certain(e)s astronomes partagent également leur
passion sur des pages personnelles, comme Nadieh Bremer38, qui aborde le domaine d’un point
de vue créatif axé sur la visualisation dynamique de données, participe régulièrement à des
conférences et partage ses expériences et ses projets sur son site.
Photométrie
Dans le domaine de la photométrie, nous trouvons des cours proposés par les universités,
comme par exemple : the University of Sidney, Photometry and Colorimetry Course. De
nombreux livres (Milone, 2011)39 (Romanishin, 2014)40 ont été publiés sur le sujet.
38 https://www.visualcinnamon.com/about 39 Milone, Eugene, Astronomical Photometry: Past, Present, and Future, Springer, 2011 40 Romanishin, W.,An Introduction to Astronomical Photometry Using CCDs, CreateSpace Independent Publishing Platform, 2014,
31
Les constructeurs d’accessoires pour télescopes sont également présents sur Internet : leurs
sites web sont dédiés à la vente et à la présentation de leur catalogue de produits : par exemple
celui de la société Optec41.
Parmi la communauté d’astronomes amateurs qui participent à des forums, certains ont des
questions ou un intérêt particulier pour la photométrie. Ainsi, nous trouvons des sections
dédiées à la photométrie en ajoutant l'étiquette "photometry"42 à l'International Astronomy
Forum. Cependant, nous relevons sur les forums une volonté de ne pas cloisonner les
techniques, comme en témoigne la contribution suivante : "My thoughts have always been more
along the line of renaming this forum to be more inclusive of all science techniques"43.
Astrostatistique
L'IAA (International Astrostatistics Association)44 est une association qui s’adresse aussi bien
aux astronomes, aux statisticiens, aux data scientists, qu’à toute personne ayant un intérêt pour
l’astrostatistique.
Le portail de l’université de Pennsylvanie dédiée à l’astrostatistique45 présente également de
nombreux liens vers d’autres associations et événements.
Et à l’intersection de tous ces domaines :
Au cœur de ces domaines, nous trouvons les universités qui proposent des cours de machine
learning dans le cursus d’astrophysique. Comme nous l’avons vu, de nombreux cours sont
dorénavant proposés en ligne, par exemple celui de l’Institut Max-Planck de radioastronomie
de Bonn : Machine Learning, the elegant way to extract information from data. Ainsi, les
PDFs46 et les vidéos47 de chacun des cours sont disponibles en ligne gratuitement.
http://www.physics.csbsju.edu/370/photometry/manuals/OU.edu_CCD_photometry_wrccd06.pdf 41 http://www.optecinc.com/astronomy/catalog/ssp/
42 http://www.astronomyforum.net/tags/photometry.html
43 Citation d’un internaute relevée sur le forum Cloudy Nights, Your astronomical community, https://www.cloudynights.com/topic/453598-spectroscopy-photometry-radio-astronomy-forum/ 44 http://iaa.mi.oa-brera.inaf.it 45 https://asaip.psu.edu/organizations/iaa 46 https://events.mpifr-bonn.mpg.de/indico/event/30/material/slides/ 47 https://events.mpifr-bonn.mpg.de/indico/event/30/material/1/
32
2.3.2 Paysage documentaire en français
Deep Learning
Les chercheurs travaillant au sein d’universités, de laboratoires et de centres de recherche
produisent essentiellement des documents en anglais, car c’est la lingua franca du domaine.
Cependant, Yan LeCun, chercheur français considéré comme l’un des pionniers du deep
learning, communique souvent dans sa langue maternelle lors de conférences. Sur le site du
Collège de France48 nous trouvons de nombreuses vidéos de cours en ligne issues de
conférences traitant du deep learning où il intervenait autour de questions pointues comme : les
réseaux multi-couches et la rétropropagation du gradient, l’apprentissage profond en pratique,
les réseaux convolutifs, etc. Ces vidéos sont bien sûr des sources très utiles aux traducteurs,
puisqu’elles nous fournissent un échantillon de cette LSP en français.
De nombreuses startups françaises emploient désormais les technologies du deep learning.
Lors du salon Viva Technology qui s’est tenu à Paris en juin 2017, la société française
Heuritech49 a remporté un prix pour son projet de logiciel capable de faire le lien entre les
réseaux sociaux et les e-commerçants. Nous constatons cependant que son site est en anglais.
Cette société offre également une solution logicielle d’analyse sémantique, de tagging et
classement automatiques de textes, images et vidéos sous forme d’APIs.
Astronomie
L’Agence spatiale européenne (souvent désignée sous son acronyme anglophone ESA pour
European Space Agency), coordonne les projets spatiaux menés par 24 États membres. Son site
diffuse de nombreuses informations sur les activités, les technologies, et les publications de
l’ESA.
De nombreuses publications scientifiques proviennent des universités, des laboratoires et
des centres de recherche. Parmi les institutions figurent l'Institut d'Astrophysique de Paris
48 https://www.college-de-france.fr/site/yann-lecun/course-2015-2016.htm 49 http://www2.heuritech.com/
33
(IAP)50, la communauté d’universités et d’établissements pluridisciplinaires de l'université
Paris-Saclay51, l’université Paris Diderot52.
Des vidéos d’introduction à la cosmologie53 sont disponibles sur YouTube, comme par exemple
le cours d’Etienne Klein de l’école CentraleSupélec. Des conférences données par des
spécialistes de la cosmologie ont également été mises en ligne sur le site de l’Académie des
sciences. Une vidéo nous a particulièrement intéressé puisqu’elle traitait de cosmographie, il
s’agit de l’intervention d’Hélène Courtois54 sur l’observation des grandes structures de
l’Univers est la cosmographie.
Enfin, le site « Fenêtre sur l’univers » est une formation en ligne55 introduisant à
l’astrophysique, qui présente l’avantage de disposer d’un glossaire en français.
Les sites de l’Observatoire de Paris56 et de l’Institut national des sciences de l'Univers (INSU)
du CNRS57 et le LESIA58 (Laboratoire d’études spatiales et d’instrumentation en
astrophysique) : un département de l’Observatoire de Paris qui est également une unité mixte
de recherche du CNRS, diffusent des connaissances ayant trait à l’astronomie : des articles de
recherche ou de vulgarisation, des informations sur les projets en cours, des actualités
institutionnelles, et les données pratiques sur les conférences et les ateliers ou écoles
thématiques. Le premier est entièrement traduit en anglais, ce qui permet de constituer un
corpus parallèle.
Dans le milieu associatif figurent la Société française d’astronomie & d’astrophysique59, la
SAF Société astronomique de France60, et l’AFA - Association française d'astronomie61,
chacune propose des lieux de rencontre pour approfondir ses connaissances en astronomie,
comme des commissions, des cours, des conférences. L’association Webastro anime un forum
50 http://www.iap.fr/ 51 https://www.universite-paris-saclay.fr/fr 52 https://www.univ-paris-diderot.fr/tags/astronomie 53 https://www.youtube.com/watch?v=VFyxniME8XA 54 Courtois Hélène, Observations des grandes structures : Laniakea, Académie des sciences, octobre 2016 55 http://media4.obspm.fr/public/FSU/ 56 https://www.obspm.fr/?lang=fr 57 http://www.insu.cnrs.fr/node/387 58 http://www.lesia.obspm.fr/-Catalogue-Publesia-.html 59 http://www.sf2a.eu/ 60 https://saf-astronomie.fr/ 61 www.afanet.fr
34
francophone qui réunit la communauté de l’astronomie : nous y trouvons des tutoriels et de
nombreuses informations. Enfin, le portail francophone dédié à la cosmologie62 sur Wikipedia
est également une bonne ressource d’informations.
Photométrie
Concernant la photométrie, nous trouvons plusieurs livres traitant de la technique en français,
ainsi que des publications scientifiques émises par des chercheurs.
La ressource terminologique la plus intéressante est un projet mené par une communauté
d’astronomes amateurs : il s’agit du projet Luxurion63, qui a pour but d’initier à l’astronomie
et comporte une section dédiée à la technique de la photométrie.
Astrostatistique
Le site de l’atelier Astrostatistique64 en France a vocation à réunir les astrophysiciens et les
statisticiens dans le cadre de projets collaboratifs, notamment l’organisation de conférences.
Un cours de statistiques65 plus général proposées par l'INSA Toulouse m'a permis de revoir des
notions de statistiques et de modélisation nécessaires à la compréhension du texte.
Et à l’intersection de tous ces domaines :
Au cœur de ces domaines, nous trouvons là aussi les universités avec de nombreuses
publications et ressources proposées en ligne, mais nous avons également relevé une forte
implication du milieu associatif.
Enfin, les bases de données terminologique et linguistique ARTES de l’Université Paris
Diderot, ainsi que Termium66 – gouvernement du Canada – se sont avérées être des points de
départ précieux pour la compréhension de certains termes, la rédaction de définitions et
l’établissement de liens sémantiques dans l’arborescence.
62 https://fr.wikipedia.org/wiki/Portail:Cosmologie 63 http://www.astrosurf.com/luxorion/photometrie.htm 64 https://astrostat.sciencesconf.org/ 65 Besse, et al., Apprentissage statistique, modélisation, prévision, data mining, Institut national des sciences appliquées de Toulouse (INSA Toulouse), https://www.math.univ-toulouse.fr/~besse/pub/Appren_stat.pdf 66 http://www.btb.termiumplus.gc.ca/tpv2alpha/alpha-fra.html?lang=fra
35
2.4 Deux cosmographies ou un seul et même cosmos ?
Appliqué à la cosmographie, le deep learning est à ce jour un micro domaine dont la production
de documents est beaucoup plus importante en langue anglaise qu’en français. Mais nous
n’avons envisagé que deux langues dans notre analyse du paysage documentaire : la sphère
anglophone et le monde francophone.
Il faut cependant souligner le nombre grandissant de publications chinoises : selon une étude
de l’Office of Science and Technology Policy (Bureau de la politique scientifique et
technologique), basée sur le nombre d’articles mentionnant les termes « deep learning » ou
« deep neural networks », la Chine serait la nation qui publie le plus d’articles de recherche
cités au moins une fois sur ce domaine à l’heure actuelle.
Figure 5 - Journaux et articles cités au moins une fois et mentionnant les termes « deep learning » ou « deep neural networks » par nation67
Cependant, une analyse plus approfondie serait nécessaire pour confirmer ce point, en effet le
système d’analysé présenté se focalise sur les critères suivants : le nombre de publications
mentionnant les termes « deep learning » ou « deep neural networks » et un critère qualitatif
sur la base d’une citation au minimum.
67 Source : Office of Science and Technology Policy, The White House, 2016
36
En français, nous trouvons quelques articles de recherche sur la photométrie appliquée à
l’astronomie, et une poignée de thèses qui n’ont pas vocation à être publiées et peuvent donc
plus être rédigées en français et ainsi s’affranchir de la norme. En revanche, les articles de
recherche émanant de la France sont presque toujours publiés en anglais (par exemple les
publications de Yan LeCun).
Enfin, nous dirions que s’il existait un collège invisible produisant de la connaissance dans le
domaine du deep learning appliqué à la cosmographie, il s’agirait probablement des nombreux
participants aux MOOCS et des internautes qui aident bénévolement à référencer les objets
astronomiques.
37
2.5 Bibliographie commentée
Dans ce vaste paysage documentaire, voici les sources que je retiendrais pour s’initier au micro-
domaine.
Quelques livres pour s’initier à la cosmologie :
- Le livre d’Hélène Courtois, Voyage sur les flots de galaxies68, est une excellente
introduction à la cosmographie : elle y partage son expérience d’astrophysicienne et le parcours
qui lui a permis de créer, en 2014, la première carte dynamique multidimensionnelle de
l’univers, et plus particulièrement du superamas auquel notre Voie lactée appartient : Laniakea.
- Françoise Combes, Astronome à l’Observatoire de Paris, a publié l’ouvrage Mystères
de la formation des galaxies 69, qui m’a également aidée à comprendre des concepts tels que
l’expansion de l’univers , la méthode photométrique et la distribution spectrale d’énergie.
- Le livre de Denis Savoie, Cosmographie70, décrit des notions essentielles de
mathématiques et de physique qui m’ont également été utiles lors de la traduction.
- L’ouvrage Cosmos71, de Stuart Lowe et Chris North, donne un aperçu visuel de
l’espace : chacune des double-pages offre un représentation visuelle élégante et originale qui
permet d’appréhender les notions d’échelle et de structure de l’Univers.
68 Courtois, Hélène, Voyage sur les flots de galaxies, Laniakea, notre nouvelle adresse dans l’univers, Dunod, 2016 69 Combes, Françoise, Mystères de la formation des galaxies, Dunod, 2008, 70 Savoie, Denis, Cosmographie, Belin, Bibilothèque scientifique, 2006 71 Lowe, Stuart et al., Cosmos, Découvrir l’espace en infographies, Vigot, 2016
38
Deux cours en ligne d’introduction au machine learning :
- L’introduction au machine learning72 présentée par Andrew Ng sur la plate-forme
Coursera. Ce cours, certes très technique, présente les notions centrales du domaine en
employant des analogies de la vie quotidienne.
- Les nombreuses conférences73 sur le deep learning présentées par Yan LeCun sur le site
du Collège de France, et pour commencer celle qui s’intitule : « Pourquoi
l'apprentissage profond ? ».
La vidéo d’une conférence sur la cosmographie :
- Nous l’avons déjà évoquée, il s’agit de la vidéo d’Hélène Courtois : Observations des
grandes structures : Laniakea74 est une excellente introduction à la cosmologie, après
un historique de cette science depuis les années 60, elle présente les grandes structures
de l’Univers et l’importance du mouvement et de la physique des galaxies dans la
cosmographie.
72 Ng, Andrew, Machine Learning Syllabus, Coursera, 2017, https://www.coursera.org/learn/machine-learning/#syllabus 73 LeCun, Yan, Pourquoi l’apprentissage profond, Vidéo de conférence, Collège de France, février 2016, https://www.college-de-france.fr/site/yann-lecun/course-2015-2016.htm 74 Courtois Hélène, Observations des grandes structures : Laniakea, Académie des sciences, octobre 2016
39
2.6 Présentation des corpus
Corpus anglais
Le corpus anglais contient 328 documents :
Nombre de mots dans le corpus anglais
Formes graphiques Occurrences
58 481 2 768 016
Les documents sont classés selon les champs d’application suivants : Big Data, cartography,
cognition, computational biology, cosmography, cosmology, education, feature importance,
informatics, machine learning, medicine, multi-modality, neurocomputing, photometry, policy
network, redshift, speech and sound, tutorials and slideshares, computer vision.
Voici la typologie des documents de mon corpus anglais :
40
Corpus français
Le corpus français contient 106 documents.
Nombre de mots dans le corpus français
Formes graphiques Occurrences
72 664 3 340 753
J’avais déjà choisi mon domaine d’application lorsque j’ai commencé à constituer mon corpus
français, ma démarche de classement était donc plus fine et j’ai regroupé les textes dans des
sous-domaines de l’astronomie ou des dossiers dédiés à des recherches terminologiques plus
précises : cosmographie, cosmologie, décalage vers le rouge, deep learning, photométrie.
Les documents du corpus français sont répartis comme suit :
41
Analyse comparative
Le corpus anglais est constitué à 79 % d’articles spécialisés émanant d’universités, de
laboratoires et de centres de recherche, contre seulement 33 % d’articles pour le corpus français.
Les publications françaises concernent en majorité le domaine de la photométrie et de
l’informatique : nous trouvons quelques publications concernant le deep learning et
l’astronomie mais qui restent minoritaires par rapport au nombre de publications en anglais, la
lingua franca du domaine.
Plus de la moitié de notre corpus français est constituée de manuels de cours, notamment des
chapitres dédiés au traitement d’images. Nous avons également inclus quelques ressources
éducatives en anglais mais elles ne représentent que 7 % du corpus anglais. En effet, la majorité
des MOOCS anglais sont au format vidéo, mais nous avons trouvé quelques supports de cours
extraits de présentations PowerPoint.
Dans les deux langues, très peu de thèses ont été menées sur le deep learning appliqué à la
cosmographie, ce qui confirme qu’il s’agit d’un microdomaine émergent.
42
2.7 Gestion des corpus
Ma méthode de travail sur les corpus a été la suivante : j’ai utilisé l’outil SketchEngine75 pour
la gestion des deux corpus. L’une des fonctions qui m’a été la plus utile est la génération de
fiches WordSketch (dont un exemple figure en annexe). J’ai nommé les fichiers d’un préfixe
(selon la typologie ci-dessous) suivi du titre du document et ajouté dans l’en-tête de chaque
document les métadonnées comme suit :
ARTI_ articles de recherche
ASSO_ publications d’association
COUR_ cours, manuels, posters
BOOK_ ebooks
GLOS_ glossaires
OBSE_ publications d’observatoire
REPT_ rapports, transcriptions de conférence
THES_ thèses
TUTO_ tutoriels et cours
WEBP_ sites web
Le classement préalable des fichiers dans des sous-dossiers me permet de connaître le sous
domaines auquel appartient un texte lors des recherches SketchEngine : il suffit de passer la
souris sur le nom du fichier pour voir l’intégralité du nom du chemin qui mène au document,
comme nous pouvons le voir dans la capture d’écran ci-dessous.
75 https://www.sketchengine.co.uk/
43
Figure 6 – Capture d’écran de l’outil SketchEngine
En parallèle, le logiciel Antconc76 permet de réaliser des recherches plus fines, sur un nombre
réduit de textes voire même un seul texte, puisque la majeure partie du temps, la thèse de Vivien
Scottez77 est le document en français qui m’a été le plus utile lors de la traduction. L’un des
avantages que présente Antconc est de pouvoir trier les concordances en appliquant un système
de changement de couleur, par exemple ci-dessous, pour le tri des voisins de gauche du terme
« filtre » :
Figure 7 - Concordances du terme « filtre » extraites avec le logiciel Antconc
76 http://www.laurenceanthony.net/software/antconc/ 77 Scottez Vivien et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015
44
Nous avons également utilisé le programme iTrameur78, pour créer un bi-texte comparable
(voir l’analyse du terme « redshift » dans la section 3.1.2.1) et générer des modélisations qui
nous ont permis de visualiser les liens sémantiques entre un terme et ses cooccurrents, comme
dans la figure ci-dessous :
Figure 8 – Modélisation du réseau des cooccurrents du terme « redshift » générée grâce à l’outil iTrameur
78 iTrameur : programme d’analyse pour l’analyse automatique statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation ; http://www.tal.univ-paris3.fr/trameur/
45
3 La recherche terminologique
3.1 Les termes du micro-domaine
Comme nous l’avons évoqué dans le protocole de recherche documentaire, la langue de
spécialité du microdomaine est constituée de trois LSP : celle du deep learning, celle de
l’astronomie (qui inclut la LSP des mathématiques, de l’astrostatistique), et celle de la
photométrie. Le traducteur doit donc être capable d’identifier et de s’approprier cette
terminologie. Plusieurs critères nous ont guidé dans la phase d’identification des dix termes
techniques spécialisés du microdomaine et de leurs équivalents.
Dans un premier temps, nous avons eu recours aux outils SketchEngine79 et TermoStat80 pour
faire des extractions terminologiques et générer des nuages de mots81. En nous basant sur des
données quantitatives, nous avons pu étudier les premières listes de candidats termes. Le critère
quantitatif rejoint ici le critère qualitatif puisque ces listes de termes sont générées en fonction
de la fréquence d’un terme dans une LSP par comparaison avec un corpus de référence de la
langue générale – comme par exemple des articles de journaux portant sur des sujets variés tirés
du quotidien français Le Monde, ou, en anglais, un corpus de langue générale comme celui du
British National Corpus82.
79 Site de SketchEngine, outil d’analyse de corpus : https://www.sketchengine.co.uk/ 80 Site de TermoStat : http://olst.ling.umontreal.ca/?page_id=91/lang-pref/en/ : outil d’extraction terminologique qui compare un corpus spécialisé à un corpus de la langue générale. 81 Il s'agit d'une représentation visuelle de mots-clés du domaine qui s'affichent dans une police de caractère d'autant plus grande qu'ils sont fréquents 82 British National Corpus, http://corpus.byu.edu/bnc/
46
Voici une première liste de termes extraits de l’article de Ben Hoyle à l’aide de l’outil
Termostat :
Figure 9 - Liste de termes extraits de l’article de Ben Hoyle à l’aide de l’outil Termostat
Pour mieux visualiser ces données, nous avons généré un nuage (TagCloud) des principaux
termes :
Figure 10 – Nuage de termes de l’article de Ben Hoyle généré à l’aide de l’outil Termostat
47
Nous avons appliqué la même méthode à la thèse de Viven Scottez en procédant d’abord à
l’extraction des termes :
Figure 11 - Liste de termes extraits de la thèse de Vivien Scottez à l’aide de l’outil Termostat
Puis à la génération d’un nuage des principaux termes :
Figure 12 - Nuage de termes de la thèse de Vivien Scottez généré à l’aide de l’outil Termostat
48
3.1.1 Tableau des termes retenus pour les fiches longues et
de leurs équivalents
Fiches longues en anglais Fiches longues en français convolutional neural network réseau de neurones à convolution Ce terme complexe apparaît 233 fois dans notre corpus anglais (fréquence : 64.86 par million), c’est donc le critère quantitatif qui a primé pour le choix de ce terme. cosmography cosmographie Dans le domaine de l’astronomie, il existe une nouvelle acception de ce terme, qui pourrait peut-être être considérée comme un néologisme. Il nous a semblé intéressant de l’étudier du point de vue terminologique, d’autant plus que le terme est au cœur de notre sujet de mémoire. curse of dimensionality fléau de la dimensionnalité Dans le domaine de l’informatique, nous avons relevé des phénomènes de prosodie sémantique négative autour du terme « dimensionality ». En poursuivant nos recherches, nous avons trouvé plusieurs occurrences de ce terme composé. En français, il existe plusieurs équivalents, ce qui nous a semblé intéressant. decision tree arbre de décision Cet outil est employé par l’auteur de l’article et apparaît 206 fois (fréquence : 57.34 par million), dans notre corpus, il était donc important de comprendre son fonctionnement et ses différents composants, nous l’avons donc retenu pour des raisons quantitatives et pour son utilité pour la traduction. deep learning apprentissage profond Il s’agit du domaine que nous souhaitions étudier dès le départ : ce terme a donc en quelque sorte façonné notre corpus. S’agissant d’un domaine émergent, de nombreux auteurs le mentionnent dans leurs publications : nous avons relevé 1832 occurrences dans notre corpus (fréquence 509.94 par million) . deep neural network réseau de neurones profonds C’est l’architecture d’intelligence artificielle employée par l’auteur de l’article, face à la multitude des équivalents que nous avons trouvés, il nous fallait étudier ce terme et son comportement pour bien le traduire. Il apparaît 252 fois dans notre corpus est 35 fois dans l’article de Ben Hoyle. feature caractéristique Ce terme semble être un terme de la langue générale facile à traduire, mais il constituait un problème traductologique majeur de l’article, que nous évoquerons en détail dans le mémoire de traduction. filter filtre C’est le critère quantitatif qui nous a mené à retenir ce terme qui apparaît 1825 fois (fréquence : 507.99 par million) dans notre corpus. performance performance Une fois encore, c’est le critère quantitatif qui a primé : le terme figure dans 2953 concordances du corpus anglais (fréquence : 821.98 par million), ce qui en fait un concept central du microdomaine. photometric redshift redshift photométrique Ce terme composé figure dans le titre de l’article : la mesure du redshift photométrique constitue l’enjeu majeur de l’article. L’étude de son comportement dans notre corpus était donc primordiale. Il apparaît 633 fois dans notre corpus (fréquence 176.20 par million) et nous commencerons ce mémoire de terminologie par une analyse détaillée de ce terme.
49
3.1.2 Analyse du terme « photometric redshift »
La finalité de l’article de Ben Hoyle est d’obtenir une mesure précise du redshift photométrique,
il était donc impératif d’étudier ce terme sous toutes ses facettes. En premier lieu, nous
constatons que le nom « redshift » est pré-modifié par l’adjectif « photometric ». Il fallait donc
commencer par comprendre le concept de « redshift ».
3.1.2.1 Analyse du terme « redshift »
Notre premier réflexe a été de consulter les bases de données spécialisées, et c’est sur la base
ARTES83 que nous avons trouvé une première définition spécialisée (Bentot, 2015)84 :
Pour valider cette définition, nous avons effectué une recherche de marqueurs définitoires dans
notre corpus afin de faire ressortir les liens sémantiques, et potentiellement des isonymes grâce
à des adjectifs pré-modifieurs, ou des hypéronymes.
L’expansion de l’Univers a été découverte en 1920, par Edwin Hubble, qui a remarqué que le décalage
spectral vers le rouge ou « redshift » des galaxies dans notre voisinage est proportionnel à leur distance.
Ce décalage vers le rouge est souvent interprété comme un effet Doppler, selon lequel la fréquence du
rayonnement émis par un objet qui s’éloigne (ou se rapproche) est plus basses (ou plus élevé) que sa
fréquence au repos.85
83 Base ARTES de l’Université Paris Diderot : https://artes.eila.univ-paris-diderot.fr/ 84 Bentot, Sophie - Master 2 ILTS 2014-2015, UFR EILA, Université Paris Diderot Paris 7, PRES Sorbonne Paris Cité (pour le domaine : Méthodes d'analyse spectrales. Méthodes d'analyse optiques. Méthodes basées sur la mesure de la diffraction de rayonnements ou de particules [CDU 2004]) 85 Combes, Françoise, Mystères de la formation des galaxies, Dunod, 2008,
50
À l’inverse, si l’astre s’éloigne de nous, les ondes sont dilatées, décalées vers le rouge ; c’est le redshift.86
Whether interpreted as recession velocity or a measure of the change in the scale factor (Bunn &
Hogg 2009), redshift is defined as the fractional increase in wavelength of the observed spectral energy
distribution (SED) z = Δλ/λ.87
Nous avons créé un bi-texte comparable grâce à l’outil iTrameur88 qui emploie des calculs
probabilistes, nous pouvons faire émerger les unités qui reviennent le plus fréquemment dans
un corpus comparable : entre le texte source et la thèse de Vivien Scottez. Cela nous a permis
d’analyser le terme « redshift » en contexte :
Nous avons ensuite cherché les cooccurrents du terme redshift dans le texte source : avec l’outil
iTrameur, nous avons généré les modélisations ci-dessous :
Figure 13 - Modélisation des cooccurrents du terme redshift générée à l’aide de l’outil iTrameur
86 Courtois, Hélène, Voyage sur les flots de galaxies, Laniakea, notre nouvelle adresse dans l’univers, Dunod, 2016 87 David W. Gerdes et al., Photometric Redshifts using Boosted Decision Trees, The Astrophysical Journal, Department of Physics, University of Michigan, 2010 88 iTrameur, Programme d’analyse textométrique de données ; http://www.tal.univ-paris3.fr/trameur/
51
Puis nous avons établi une fiche Word Sketch du nom « redshift » en utilisant l’outil
SketchEngine (Figure 22). Comme nous pouvons l’observer sur la modélisation ci-dessous, en
anglais, les pré-modifieurs les plus fréquents de notre corpus sont les adjectifs « photometric »
et « spectroscopic ». Il s’agit des deux techniques les plus employées pour la mesure du
redshift : ce sont donc des isonymes, que nous pourrions regrouper sous l’hyperonyme
« techniques de mesure du redshift ».
En français, nous avons suivi la même procédure pour générer les modélisations de
cooccurrents potentiels du terme « redshift » en français, et du terme « décalage » :
Figure 14 – Modélisation des cooccurrents du terme « redshift » générée à l’aide de l’outil iTrameur
Figure 15 – Modélisation des cooccurrents du terme « décalage » générée à l’aide de l’outil iTrameur
52
Nous observons que le terme « redshift » est souvent pré-modifié par des adjectifs de gradation,
qui s’accompagnent de la collocation : Préposition « at » + Adjectif + redshift pour indiquer la
situation du redshift sur l’échelle spectrale :
- adjectifs de gradation : at high(er) redshift(s), at low(er) redshift(s), at intermediate
redshift.
Ex: At higher redshift, the intrinsic clustering will drop and the magnification
bias will increase dramatically.
- ou d’adjectifs décrivant la précision de la mesure ou établissant une comparaison avec
d’autres mesures : accurate redshift, different redshift, similar redshift, true redshift,
secure redshift.
De nombreux termes composés ont été créés sur la base du terme « redshift » : il s’agit de termes
statistiques (redshift bin, redshift range, redshift distribution, redshift estimates), ou ayant trait
à la méthodologie astronomique (redshift surveys).
Concernant les collocations autour du terme redshift, nous trouvons de nombreux verbes en lien
avec :
- la mesure :
o to measure the redshift:
- le calcul :
o to estimate redshifts:
o to calculate the redshifts:
53
o to derive redshifts;
- ou l’observation, la déduction du redshift :
o to observe redshifts:
o to determine redshifts:
54
3.1.2.1.1 L’importance de la notion de « filtre »
Grâce aux recherches en corpus, nous avons déjà pu établir quelques liens sémantiques :
La photométrie est une façon de déterminer le redshift d’un objet à partir des mesures de sa magnitude
apparente à travers différents filtres.89
Ce premier contexte nous permet d’émettre l’hypothèse que la photométrie est une technique
qui emploie des filtres et qu’il existe un lien fonctionnel entre ces termes. Cela nous mène à
faire des recherches plus affinées sur SketchEngine et nous cherchons des occurrences du terme
« photometry » à proximité (concrètement : situés à une distance allant jusqu’à cinq termes) du
terme « filter ».
Nous obtenons plusieurs résultats, parmi lesquels un contexte nous a semblé riche en
informations.
When there are clouds in the sky, they block different amounts of light at different positions in the sky.
Some instruments can do photometry through two or more filters simultaneously. These instruments
involve some sort of optical element (usually a dichroic filter) which splits the light from the telescope
into two different beams based on the wavelengths of each photon, say one beam bluer than 500 nm
wavelength and the other redder than 500 nm, and feeds them to two different detectors.90
Nous comprenons donc que la technique de la photométrie équipe le télescope d’un photomètre
sur lequel est disposé un filtre qui affine la détection et la mesure des longueurs d’onde des
photons.
L’expert Viven Scottez nous confirme qu’en français : le terme « filtre » désigne l’objet en lui-
même (« Le filtre s’est cassé. »), sinon c’est le terme « bande spectrale » qui est employé. Le
filtre est donc bien un accessoire, un méronyme du terme « télescope », qui laisse uniquement
passer une partie du spectre : une gamme de longueur d’onde vers la « bande spectrale ».
89 Vivien Scottez et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015 90 W. Romanishin, An Introduction to Astronomical Photometry Using CCDs, University of Oklahoma, 2002
55
En faisant une recherche sur le site d’une entreprise91 dédiée à la vente de télescope et de leurs
accessoires, nous trouvons une image concrète de cet objet :
Figure 16 – Image d’un filtre, Source : site web de la société Optec92
Lors de la traduction, nous avons rencontré le terme « CCD ». Pour établir le lien sémantique
entre le terme « filtre » et « CCD », nous avons dû affiner nos recherches. C’est sur le site du
relevé astronomique SDSS que nous avons trouvé une photographie du photomètre grand
champ doté d’un CCD mentionné dans l’article de Ben Hoyle.
Figure 17 – Image du dispositif pour du SDSS93
91 "filter" site:optecinc.com 92 https://optecinc.com/astronomy/catalog/ifw/ifw_wheels.htm 93 Site du relevé astronomique SDSS : http://www.sdss.org/instruments/
56
Sur ce même site web, nous relevons également un contexte riche en connaissances incluant
des définitions (telle que celle du terme « drift scan mode ») et établissant plusieurs liens
sémantiques, dont celui qui nous intéresse, le lien entre le CCD et le filtre :
The SDSS’s imaging camera is now at the Smithsonian, but all the images it collected are available online.
The imaging camera collected photometric imaging data using an array of 30 SITe/Tektronix 2048
by 2048 pixel CCDs arranged in six columns of five CCDs each, aligned with the pixel columns of the
CCDs themselves. SDSS r, i, u, z, and g filters cover the respective rows of the array, in that order. The
survey operated the instrument in a drift scan mode: the camera slowly reads the CCDs while the
telescope moves along great circles on the sky so that images of objects move along the columns of the
CCDs at the same rate the CCDs are being read. As an image of an object moves along the column of the
CCDs, a CCD in each row collects data on that object. Therefore, the camera produces five images of
a given object, all from the same column of CCDs, one from each CCD in that column. It takes an object
54 seconds to move from the beginning of a CCD to the end, so the effective exposure time in each filter
is 54 seconds. Because there is some space between the rows of CCDs, it takes an image 71.7 seconds to
move from the beginning of one row to the next. Each row corresponds to a different filter, so each object
has one image in each filter, taken at 71.7 second intervals.
Nous émettons donc l’hypothèse que le CCD est constitué d’une multitude de capteurs
optiques dont le photomètre est équipé. Les filtres (ici : r, i, u, z, et g) sont ensuite disposés
sur les capteurs CCD.
Le programme du relevé astronomique permet ensuite au CCD de produire plusieurs images à
mesure que le télescope se déplace sur chaque région du ciel à explorer, en passant au travers
des différents filtres.
Cela nous permet d’établir les liens holonymes / méronymes des termes en lien avec le
télescope grand champ employé pour le relevé SDSS :
57
3.1.2.1.2 Analyse du terme « photometric redshift »
Une fois réunies ces connaissances essentielles à la compréhension de la technique du redshift
photométrique, nous avons cherché des contextes définitoires du terme :
On peut distinguer deux types d’approches permettant de mesurer le redshift photométrique : les
méthodes utilisant des modèles (ajustement de modèles, approche Bayesienne...) et les méthodes
empiriques de type « apprentissage automatique » (réseaux de neurones, forêts d’arbres
décisionnels...).94
Ce contexte nous permet de faire un premier schéma comprenant les liens hyperonymes /
hyponymes suivants :
Le micro-domaine est un domaine émergent où de nombreux termes équivalents existent pour
un même concept : cela peut être expliqué par des phénomènes de néonymie simultanés. Le
symbole Z est communément employé en astrophysique pour représenter le redshift. Au fil de
nos recherches, nous découvrons ce qui semble être une variante du terme
« photometric redshift » : le terme « photo-Z ». Nous contactons alors l’auteur du texte pour lui
demander s’il s’agit bien des mêmes concepts :
Julia Pagès : Concerning the term "photometric redshift", I have found the abbreviation
"photo-z" in my corpus and they seem to be synonyms that can be used in the same way,
or do you use them differently?
Ben Hoyle : Correct they are exact synonyms. You may also see p(z) and z-phot, z_phot,
phot_z
94 Vivien Scottez et al., Clustering redshift : une nouvelle fenêtre sur l’univers, Université Pierre et Marie Curie, ED 127 - Astronomie & Astrophysique, Institut d’Astrophysique de Paris, Novembre 2015
58
Il existe donc une variation terminologique autour de ces termes : essentiellement des
abréviations. L’existence de ces nombreux synonymes nous a d’ailleurs permis de réorienter
nos recherches documentaires vers de nouveaux textes pour le corpus.
En français, nous constatons le même phénomène : ces abréviations existent également. En ce
qui concerne la traduction du terme « photometric redshift », nous nous trouvons à un
embranchement vers trois approches différentes :
- Traduire chaque terme en français et adopter leur forme étendue : « décalage vers le
rouge photométrique » ;
- emprunter le terme « redshift » à l’anglais et traduire uniquement
l’adjectif « photométrique » ;
- employer des abréviations et parler de « photo-z », qui semble être l’une des
abréviations les plus fréquentes en français.
Nos échanges avec l’expert Vivien Scottez et sa traduction du terme en français dans sa thèse
en français nous ont mené à choisir la seconde option.
59
3.1.3 Analyse du terme « deep learning »
L’apparition du terme et l’existence d’une controverse
Le terme « neural networks » remonte aux années 1960 et aux premières recherches dans le
domaine. Le terme « deep learning » existait depuis plusieurs décennies dans d’autres
domaines, notamment dans l’éducation, mais ce n’est qu’en 1986 qu’il apparaît dans le domaine
de l’apprentissage automatique, dans un article publié par Rina Dechter95. Cependant l’article
n’abordait pas le sujet des réseaux de neurones.
Appliqué aux réseaux de neurones, le terme apparaît en l’an 2000 dans l’ouvrage Multi-Valued
and Universal Binary Neurons: Theory, Learning and Applications96. Mais de nombreuses
équipes de chercheurs employaient déjà le terme à l’oral depuis des décennies : les premiers
pionniers du deep learning ayant commencé leurs travaux dans les années 1960.
Le terme a ensuite été disséminé par le biais d’un article publié en 2007 par Geoffrey Hinton97 .
De nombreux spécialistes estiment que ce terme est le résultat d’enjeux marketing : il s’agirait
donc d’un « changement d’image », d’une volonté de renommer un domaine qui existait déjà.
En 2012, le deep learning devient réellement un « buzzword », suite au concours de
reconnaissance d’images Imagenet. Les buzzwords sont fréquents dans le discours marketing
et se propagent très rapidement sur Internet. Dans le vocabulaire de l’informatique, on trouve
par exemple des termes comme : e-learning, Big Data, ou encore le paradigme data-oriented,
object-oriented.
En marge de cette question, deux approches existent : une partie de la communauté soutient une
approche « biomimétique » et affirme qu’il faut s’inspirer des sciences cognitives, du
fonctionnement de la pensée et du cerveau humain, pour concevoir des architectures neuronales
artificielles. Mais une grande partie de la communauté scientifique se soulève contre une vision
95 Dechter, Rina, Leaning while Searching in Constraint-Satisfaction-Problems, Artificial Intelligence Center, Hughes Aircraft Company, Calabasas, California, and Cognitive Systems Laboratory, Computer Science Department, University of California, Los Angeles, 1986 96 Aizenberg, Igor et al., Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications, Springer, avril 2000 97 Hinton, Geoffrey, Learning multiple layers of representation, Department of Computer Science, University of Toronto, Trends in Cocnitive Sciences, Vol. 11 No. 10, Elsevier, 2007
60
de l’intelligence artificielle basée sur cette analogie. En effet, les dernières découvertes comme
la rétropropagation des données, s’éloignent de plus en plus des neurosciences humaines et ont
donné des résultats concluants.
Deux autres concurrents du terme qui figurent également dans les publications scientifiques
sont : « hierarchical learning » et « deep structured learning ». Il s’agit probablement de
tentatives de lissage sémantique visant à neutraliser les divergences d’opinion du domaine.
Les équivalents en français
En français, nous constatons une dichotomie similaire : dans les conférences données au
Collège de France, qui visent à introduire des non-spécialistes aux domaines, Yan LeCun parle
d’« apprentissage profond » et de « réseaux de neurones profonds ». Dans le corpus en français,
nous relevons également des occurrences concernant les termes « réseaux neuronaux » et
« réseaux profonds », dont voici quelques statistiques et concordances :
- « apprentissage profond » :
- « réseaux de neurones profonds » :
- « réseau neuronaux » :
61
- et « réseaux profonds » :
Mais après avoir échangé avec les experts de notre domaine, l’emprunt à l’anglais est d’usage :
« deep learning », « DNN », « Deep Neural Nets » :
- « deep learning » :
- « DNN » :
- « Deep Neural Networks » : une seule occurrence en français (qui présente et et
explicite le sigle DNN)
Appréhender le domaine du deep learning
Notre point de départ a été la base de données Termium. Nous avons constaté que deux entrées
existent pour le terme deep learning : la première dans le domaine de l’intelligence artificielle
et la seconde dans le domaine des méthodes pédagogiques et de la formation du personnel. Il
s’agit donc d’un terme polysémique, c’est-à-dire que sa forme linguistique correspond à plus
62
d’un concept98, et que son référent varie en fonction du domaine, puisque, comme nous l’avions
mentionné dans le bref historique du terme, il provient initialement du domaine de
l’enseignement.
Dans cette fiche, nous relevons des équivalents que nous avions déjà repérés dans notre corpus,
et un nouvel équivalent pour la traduction en français : « apprentissage en profondeur ». Ce
terme semble cependant apparaître essentiellement dans des publications canadiennes.
98 L’Homme, Marie-Claude, La terminologie : principes et techniques, Les Presses de l’Université de Montréal, 2015
63
Nous consultons notre corpus pour établir une liste des premiers collocats du terme « deep learning » :
En examinant quelques concordances du terme deep learning et du collocat representations,
nous relevons plusieurs hyponymes de représentations : feature representations, abstract
representations, data representations.
64
Nous y relevons plusieurs occurrences du mot composé abstract representations. Nous
recherchons ensuite une concordance du terme deep learning accompagné du terme abstract et
constatons qu’il existe un phénomène collocationnel entre ces termes :
Pour mieux comprendre le domaine du deep learning, nous recherchons des contextes riches en
connaissances dans notre corpus en cherchant les termes « approche » et « Deep Neural
Networks ».
Les approches récentes basées sur les réseaux de neurones profonds (Deep Neural Networks, DNN)
ont atteint des performances état-de-l’art pour de nombreuses tâches du traitement de l’audio et de
l’image. Le principal avantage de ces techniques est d’apprendre simultanément des caractéristiques
de représentations et des fonctions de classification. L’initialisation des caractéristiques de
représentations peut être effectuée sur de grands corpus de données génériques pas nécessairement liés
à la tâche cible pour plonger les données dans des espaces de représentations (dénommés embeddings
en anglais) qui pourront être ajustés à la tâche cible de façon jointe.
Nous pouvons donc établir les premiers liens sémantiques suivants :
65
Voici un autre contexte définitoire :
Furthermore, neural networks are flexible and can be adapted quickly for specific domains. These
features make neural networks ideal for problems with abundance of data and complex relationships.
The word “Deep” in Deep Learning is most commonly understood as referring to neural network
models having more than two layers. Most problems with natural data such as image recognition and
speech processing are tackled effectively with neural networks that are deep in terms of the number of
layers. There is also another way of seeing Deep Learning as a collection neural networks-based
algorithms that are able to learn features automatically from raw data, with limited human intervention.
Ce contexte définit bien l’acception de l’adjectif « deep » dans les architectures de réseaux de
neurones, qui vise à indiquer la présence de plus de deux couches. Ainsi la présence de plus de
deux couches est le critère sémantique qui le distingue des réseaux de neurones artificiels. Nous
constatons également que les réseaux de neurones sont basés sur des algorithmes et qu’il existe
un lien fonctionnel entre les couches et les algorithmes. Nous confirmons ce points en faisant
une recherche de ces deux termes, qui apparaissent fréquemment en cooccurrence dans notre
corpus :
Enfin le terme « features » semble être l’équivalent du terme « caractéristiques » qui
apparaissait dans le premier contexte français.
Les équivalents du terme
L’article de Ben Hoyle traite exclusivement de « deep neural networks » puis emploie le sigle
« DNNs » pour s’y référer.
Après avoir consulté les experts, il semble pertinent de présenter dans un premier temps le nom
du domaine en français : l’« apprentissage profond », suivi du terme anglais « deep learning »
entre parenthèses. Puis, en ce qui concerne les architectures, une solution peut être de
mentionner d’abord l’architecture en français : les réseaux de neurones profonds, puis de s’y
référer grâce au sigle DNN, qui sera explicité dans sa forme étendue en anglais. Une formulation
possible serait par exemple : « l'apprentissage profond, méthode basée sur les réseaux de
neurones profonds (Deep Neural Networks, DNN) ».
66
3.1.3.1.1 La polysémie du terme « filtre »
Nous retrouvons une nouvelle acception du terme « filtre », cette fois dans le domaine du deep
learning :
A typical qualitative way of comparing features extracted by a first layer of a deep architecture is by
looking at the “filters” learned by the model that is the linear weights in the input-to-first layer weight
matrix, represented in input space. This is particularly convenient when the inputs are images or
waveforms, which can be visualized.99
Nos recherches sur la base de données Termium nous mènent à la définition en français ci-
dessous :
Trois synonymes existent pour ce terme en anglais : filter, pattern matcher, match pattern. Nous
n’avons trouvé que le premier terme dans notre corpus anglais. Pour comprendre la notion, nous
avons cherché ses collocats les plus fréquents grâce à SketchEngine :
99 Bengio, Yoshua et al., Visualizing Higher-Layer Features of a Deep Network, Université de Montréal, Département d’informatique et recherché opérationnelle, 2009
67
L’un des premiers résultats que nous avons obtenus est le terme « filter bank », c’est en
parcourant les concordances que nous avons trouvé un contexte définitoire, qui retrace
également l’histoire du terme.
In order to systematically study variants of texture representations ϕ = ϕe ∘ ϕf , we break them into local
descriptor extraction ϕf followed by descriptor pooling ϕe. In this manner, different combinations of each
component can be evaluated. Common local descriptors include linear filters, local image patches, local
binary patterns, densely-extracted SIFT features, and many others. Since local descriptors are extracted
uniformly from the image, they can be seen as banks of (non-linear) filters; we therefore refer to them as
filter banks in honor of the pioneering works of Mallat (1989), Bovik et al. (1990), Freeman and Adelson
(1991), Leung and Malik (2001) and others where descriptors were the output of actual linear filters.
Cela nous a permis de rédiger la définition suivante, appliquée au domaine de la vision
artificielle :
Figure 18 – Définition du terme « filter bank » dans la base Artes
68
3.1.4 L’écosystème des statistiques : la métaphore de la
nature
En essayant de construire les premières arborescences en anglais, nous observons qu’il existe
une famille de termes statistiques qui partagent des traits sémantiques du domaine de la nature :
decision tree, prediction tree, random forest, branch, leaf. La métaphore de la nature et d’un
écosystème est sous-jacente. Dans le domaine des statistiques, elle met en relief l’analogie
d’embranchements et de ramifications qui mènent aux nombreux choix ou issues possibles.
En ce qui concerne le terme « decision trees », l’article de Ben Hoyle offre un contexte
définitoire où nous constatons qu’il s’agit d’une architecture d’apprentissage automatique
(machine learning architecture), qui serait donc l’hyperonyme, avec un objectif de classement
dans des « boîtes » :
Tree methods
Once a galaxy has been observed and its photometric properties measured, it can be placed along with
other galaxies into a high dimensional scatter diagram in which each dimension corresponds to a chosen
input feature. Decision trees are machine learning architectures which subdivide this high dimensional
space into high dimensional boxes.
69
Comme nous pouvons le voir dans les contextes riches en connaissances ci-dessous, nous
retrouvons les mêmes phénomènes en français : l’« arbre » (holonyme) est constitué non pas de
« branches » comme en anglais, mais de « nœuds » qui conduisent à des « feuilles » (deux
méronymes). Ils ont pour but de « classer » les éléments d’un « échantillon d’apprentissage »,
grâce à des « capacités de généralisation ».
La classification d’un nouvel exemple se fait par le parcours d’un chemin dans l’arbre en évaluant
l’exemple au niveau de chaque noeud jusqu’à ce qu’on atteigne une feuille dans l’arbre.
Si l’on construit un arbre de décision jusqu’à ce que chaque feuille de l’arbre contienne un seul individu,
il ne commet aucune erreur de classification sur l’échantillon d’apprentissage, mais il perdra ses
capacités de généralisation à d’autres échantillons.
Pour le terme « decision tree » | « arbre de décision », nous observons également des
collocations similaires dans les deux langues : to build a ~ | to construct a ~ | construire un ~ ;
to use a ~ | utiliser un ~. En revanche, nous n’avons pas observé d’équivalent de la collocation
« to grow a decision tree » : la formulation « faire pousser » un arbre de décision n’apparaît
qu’à de rares occasions sur des forums d’amateurs et entre guillemets.
to build a decision tree construire un arbre de décision The training steps are as follows: (1) to choose a subset of sampples using Bootstrap sampling methods, (2) to choose randomly M features from M ones for each node, (3) to construct a CART decision tree with the chosen samples by using GINI coefficient (Eq. (3)) as information gain (Quinlan, 1986), and (4) to build N CART decision trees until a RF is built.
Si l’on construit un arbre de décision jusqu’à ce que chaque feuille de l’arbre contienne un seul individu, il ne commet aucune erreur de classification sur l’échantillon d’apprentissage, mais il perdra ses capacités de généralisation à d’autres échantillons.
to use a decision tree utiliser un arbre de décision This also helps avoid overfitting which is likely to appear if only one decision tree is used.
Figure 6.7: Nombres de noeuds avant (en bleu) et après (en rouge) pruning pour chaque arbre de décision utilisé dans l’optimisation de l’algorithme de BDT dédiée à la recherche de boson W droit dans le canal 2-jet 2-tag.
to grow a decision tree Every decision tree is grown on an independently drawn bootstrap replica of input data and the prediction is computed by using the ensemble average.
to generate a decision tree
70
C4.5 is an algorithm used to generate a decision tree developed by Ross Quinlan [16-18].
to construct a decision tree
(2) to choose randomly M features from M ones for each node, (3) to construct a CART decision tree with the chosen samples by using GINI coefficient (Eq. (3)) as information gain (Quinlan, 1986), and (4) to build N CART decision trees until a RF is built.
Enfin, nous trouvons de nombreuses micro-définitions comme celle du concept
d’élagage|pruning, qui comme son nom l’indique, consiste à réduire la taille d’un arbre :
On parlera dans ce dernier cas de l’élagage d’un arbre de décision grâce à des algorithmes dits de
pruning.
On dira que T est un sous-arbre de T0 si T peut être obtenu en élaguant T0, c’est-à-dire en réduisant le
nombre de noeuds de T0.
71
3.1.5 La variation autour des adjectifs, la siglaison et les
abréviations
Dans ce domaine, nous trouvons un phénomène de variation autour des adjectifs pré-modifieurs
dont voici quelques exemples :
photometric
spectroscopic
cosmological
redshift
convolutional
deep
artificial
Long Short-Term Memory
neural network
Figure 19 – Extraction des adjectifs entrant en cooccurrence avec les termes « redshift » et « neural network » effectuée à l’aide de l’outil SketchEngine
Cet adjectif peut intervenir pour apporter une indication sur la technique employée pour l’étude
d’un phénomène, comme dans le cas du « photometric redshift » et du « spectroscopic
redshift ». À plus grande échelle, l’adjectif inscrit l’étude du terme dans le cadre théorique
envisagé par l’auteur, ainsi dans le cas du « redshift » : il faut distinguer le « cosmological
redshift » du « doppler redshift » qui ne sont pas les mêmes approches et ne se basent pas
nécessairement sur les mêmes modèles cosmologiques.
Dans le cas des réseaux de neurones, il s’agit de la classe des architectures d’intelligence
artificielle : les adjectifs entrent en cooccurrence avec leur hypéronyme pour créer une nouvelle
architecture.
Une autre caractéristique de ce microdomaine est la prédominance des abréviations et de la
siglaison. Dans les publications scientifiques, pour éviter les répétitions, les concepts récurrents,
tels que les noms d’architectures de réseaux de neurones, sont en général développés une fois
sous leur forme étendue puis repris sous leur forme siglée tout au long du texte. Les chercheurs
font également référence aux relevés astronomiques, tels que le Sloan Digital Sky Survey, en
utilisant un acronyme.
72
photometric redshift
spectroscopic redshift
Photo-Z, phot-z, z_phot
Spectro-z, z-spec,
spec(z)
convolutional neural network
deep neural network
artificial neural network
recurrent neural network
Long Short-Term Memory neural network
ConvNet, CNN, CNNs
DNN, DNNs
ANN, ANNs
RNN, RNNs
LSTM-NN
Charge couple device CCD
Dark Energy Survey
Palomar Digital Sky Survey
Two Micron All-Sky Survey
Green Bank Telescope
Galaxy Evolution Explorer
Sloan Digital Sky Survey
Panoramic Survey Telescope and Rapid Response System
Large Synoptic Survey Telescope
Square Kilometer Array
DES
DPOSS
2MASS
GBT
GALEX
SDSS
PanSTARRS
LSST
SKA Figure 20 – Liste non-exhaustive de sigles du micro-domaine
73
3.1.6 La normalisation
Une grande partie du travail terminologique consiste à établir des liens entre les termes. Un
autre objectif de la terminologie et de normaliser, c’est-à-dire de réglementer les termes pour
en faciliter la compréhension dans un domaine de spécialité. Nous nous sommes intéressés aux
définitions du terme « node » | « nœud ». Les acceptions de ce terme polysémique diffèrent
selon qu’il se situe dans une architecture de réseaux de neurones ou dans un arbre de décision.
Définitions du terme « node » | « nœud »
In a neural network Dans un réseau de neurone
An artificial neuron in a neural network, consisting of a small amount of local memory and processing power. The output from a processing element is fanned out and becomes the input to many other elements.
Unité élémentaire de traitement d'un réseau neuronal, ayant plusieurs entrées et une sortie, dont la valeur de sortie est une fonction non linéaire d'une combinaison de valeurs d'entrée, les coefficients de pondération de la combinaison étant ajustables. [ISO/IEC 2nd WD 2382-34: 1994 (E/F)].
In a decision tree Dans un arbre de décision
In a tree structure, a point from which subordinate items originate.
Dans une structure d'arbre, point à partir duquel partent des éléments subordonnés.
Figure 21 – Définition des termes « node » « nœud »100
Le terme a été normalisé par la norme ISO101 et par la CSA (Association canadienne de
normalisation). Ce sont des indicateurs d’un domaine en voie de structuration.
100 TERMIUM Plus®, banque de données terminologiques et linguistiques du gouvernement du Canada (http://www.btb.termiumplus.gc.ca) 101 [ISO/IEC 2nd WD 2382-34: 1994 (E/F)]
74
3.2 Les arborescences
Comme nous l’avons évoqué dans le protocole de recherche documentaire, la construction des
arborescences nous a semblé complexe en raison du grand nombre de domaines et des
différentes techniques qui s’y entrecroisent. Nous avons donc d’abord considéré une
arborescence où nous placions le texte au centre, pour avoir une vision globale des différents
enjeux. Cela nous a beaucoup aidé à structurer notre vision du domaine. Au fur et à mesure de
notre exploration de chacune des branches de l’arborescence, il nous a semblé pertinent de
présenter une arborescence sur plusieurs couches.
Nous avons d’abord construit l’arborescence en langue source : en anglais. Une fois les
équivalents trouvés en langue cible, nous avons procédé à la traduction en français.
LEGEND
termterm
holonym of
uses / makes
hyperonym of
goal / results in
measures / studies
decision tree
random forest
astrostatistics
high-dimensional
data
predictive power
branch node leaf
data augmentation
computing
machine learning
machine learning model
deep learning
reinforcement learning
deep neural network
image acquisition
input layer hidden layer node output layer
algorithm
training algorithm
learning algorithm
backpropagation algorithm
input data
data set
spectral band
observational effects
correction
sky subtraction flat fieldinginterstellar extinction
interstellar absorption
feature
angular extent
colour
magnitude
radii
telescope
photometry
charge coupled device
photometer
filter
astronomy
observational cosmology
galaxy data
galaxy image
cosmography
photometric redshift
photometric survey
redshift survey
redshift measurement
method
blueshift
wavelength
photon energy loss
astronomical data
spectroscopic redshift
phenomenon
redshift
optimisation algorithm
stochastic gradient descent
algorithm
training data set
non-linear transformation
survey
spectroscopic survey
task
performance
statistical tool
residual vector
mean deviation
standard deviation
outlier rate
photometric residual
distribution
method
Deep Learning for Cosmography: Using DNNs for Photo-Z Estimation
supervised learning
unsupervised learning
image processing
classification
high dimensional box
hyperbox
box
bin
binning
training rounds
linear transformation
photometric redshift
measurement
template method
empirical method
spectral template
reference frame optical spectrum
template fitting technique
spectral feature
spectral break
Bayesian approach
convolutional neural
network
neural network architecture
root node
leaf node
child node
sibling child node
receptive field
convolution
fully-connected
artificial neural network
feedforward neural network
spatial pooling
filter bank
transfer learning
curse of dimensionality
outlier
decision tree learning
classifier
limits
filter bank
catastrophic photo-z
galactic extinction
interstellar reddening
fiche longueterm
fiche courteterm
multibande
76
(Cette page est laissée blanche intentionnellement)
LEGEND
termeterme
holonyme de
utilise / emploie
hyperonyme de
objectif / résulte
mesure / étudie
arbre de décision
forêt d'arbres décisionnels
astrostatistiques
donnée haute dimension
pouvoir prédictif
branche noeud feuille
augmentation des données
informatique
apprentissage automatique
modèle d'apprentissage
automatique
apprentissage profond
apprentissage par
renforcement
réseau de neurones profonds
acquisition d'image
couche d'entrée couche cachée noeud couche de sortie
algorithme
algorithme d'entraînement
algorithme d'apprentissage
rétropropagation du gradient
donnée d'entrée
jeu de données
multibande bande spectrale
correction d'effets
observationnels
soustraction du ciel
correction de champ plats
extinction interstellaire
caractéristique
profil de brillance
exponentiel De Vaucouleurs
étendue angulaire
couleur
magnitude
rayon
télescope
photométrie
dispositif à transfert de
charge
photomètre
filtre
astronomie
cosmologie observationnelle
données de galaxie
image de galaxie
cosmographie
redshift photométrique
relevé photométrique
relevé de redshift
méthode de mesure du
redshift
blueshift
longueur d'onde
perte énergétique des
photons
données astronomiques
spectroscredshift
spectroscopiqueopic redshift
phénomène
redshift
algorithme d'optimisation
algorithme de descente de
gradient stochastique
jeu de données d'entraînement
transformation non-linéaire
relevé
relevé spectroscopique
tâche
performance
outil statistique
vecteur résiduel
écart moyen
écart type
valeur aberrante
distribution des résidus
photométriques
méthode
Utilisation de méthodes de deep learning pour la mesure du redshift photométrique
"apprentissage supervisé
"
apprentissage non supervisé
traitement d'image
classification
classifieur
boîte haute dimension
hyperboîte
boîte
classe
groupement des données par
classe
phases d'entraînement
transformation linéaire
mesure du redshift
photométrique
méthode utilisant des
modèles
méthode empirique
modèle spectral
cadre de référence
spectre optique
technique d'ajustement de
modèles
caractéristique spectrale
rupture spectrale
approche bayésienne
réseau de neurones à convolution
architecture de réseau de neurones
noeud racine
noeud de feuille
noeud enfant
noeud-frère
champ récepteur
convolution
entièrement connecté
réseau de neurones artificiels
réseau neuronal sans rétroaction
pooling spatial
banc de filtres
apprentissage par transfert
fléau de la dimensionnalité
observation aberrante
apprentissage par arbre de
décision
limites
banc de filtres
redshift photométrique catastrophique
absorption interstellaire
extinction galactique
fiche longueterme
fiche courteterme
78
(Cette page est laissée blanche intentionnellement)
79
3.3 Les collocations génériques
Les collocations génériques sont des unités linguistiques qui permettent d’identifier les
régularités d’un discours spécifique : ce sont des séquences de mots que nous retrouvons dans
un type de discours, comme par exemple les articles de recherche scientifique.
L’identification de ces associations de mots récurrentes permet d’inscrire une traduction dans
un type de discours. L’objectif est donc d’améliorer la prise en compte de toutes ces régularités
d’expression, de cette phraséologie, pour les retranscrire au mieux dans notre traduction.
Nous analyserons quelques collocations, que nous classerons en fonction de structures
grammaticales, pour ainsi tenter de faire émerger quelques motifs sous-jacents du langage de
spécialité de notre microdomaine.
Pour le choix des collocations génériques, notre méthodologie a consisté en une recherche
statistique des N-grams de mots (séquences de cinq mots qui entrent en cooccurrence) les plus
fréquents dans notre corpus en anglais grâce à l’outil SketchEngine. Nous avons ensuite analysé
les résultats textuels les plus significatifs et cherché des équivalents dans le corpus de la langue
cible.
80
3.3.1 V + beyond the scope of this + N
Cette collocation générique a pour but de délimiter le cadre des travaux de l’auteur : il s’agit de
préciser le sujet de son étude, de redéfinir son positionnement ou le contexte théorique dans
lequel s’inscrit et se limite son travail. Nous relevons plusieurs occurrences employant le verbe :
be|go + beyond the scope of this + something (book|paper|section|study).
• Although a detailed theoretical interpretation of this empirical relation goes beyond the
scope of this paper, in the following we discuss two possible qualitative interpretations.
• An introduction to statistical methods for experimentation is beyond the scope of this
book, but all researchers should be aware of relevant statistical principles, and be able
to judge when use of statistics is necessary for their work.
• It is, however, beyond the scope of this study to present strategies on how to optimise
catalogues for different science applications and how to quantify those improvements.
Un équivalent français de cette collocation trouvé dans notre corpus est :
GN + dépasse le cadre de ce.tte + N • Ces objets auront cependant des propriétés spectrales de surface (océans de lave, roches
fondues...) dont la modélisation dépasse le cadre de cette thèse.
• Un état de l’art des algorithmes mis en œuvre pour gérer cette complexité dépasse le
cadre de cette thèse.
• L’élaboration d’un critère ou d’un test statistique permettant de déterminer si l’on
devrait procéder à l’estimation de la distribution dépasse le cadre de ce mémoire et est
laissée ouverte à de futures recherches.
81
3.3.2 For + stg + the reader is referred to + N
Cette collocation générique annonce un point d’informations complémentaires, qui sera discuté
plus tard ou qui renvoie vers une autre source. Il s’agit d’évoquer d’autres points d’intérêt pour
l’étude, de recommander des lectures, ou bien de faire un renvoi bibliographique à une personne
ou à une œuvre connue.
• For a fuller description of the various catalogs on which the samples were based, the
reader is referred to the references below.
• For details on implementations of individual parameters, the reader is referred to the
documentation of openSMILE and to [20].
• For interpretation of the references to colour in this figure legend, the reader is
referred to the web version of this article.
Pour + qqch + le lecteur est invité à se référer à qqch | Le lecteur est invité à se référer à qqch + pour + qqch
• Dans le compte-rendu ci-présent, je donnerai quelques conclusions clefs de nos
recherches (pour plus de détails le lecteur est invité à se référer au chapitre 4 de ma
notice HDR).
• Le lecteur est invité à se référer au chapitre 2 pour la définition des termes techniques.
• Pour plus de précisions à ce sujet, le lecteur est invité à se référer au site internet du
Ministère de l'Ecologie et du Développement Durable (www.ecologie.gouv.fr).
82
3.3.3 N + has/have been shown to be + Adj
Cette collocation générique a pour fonction de présenter le résultat d’observations empiriques,
ou d’annoncer des conclusions.
• This template correction step has been shown to be a crucial ingredient in decreasing
the bias, the scatter, and the number of outliers in the redshift estimation.
• Deep learning has been shown to be very effective in integrating data from different
sources.
• At the core of the learning process is a novel incremental clustering algorithm, which
has been shown to be both fast and stable.
N + se sont avéré.e.s + Adj • Les performances du programme d’alignement géométrique utilisé dans la chaîne de
traitement classique d’Eros (4.5.1) se sont avérées insuffisantes (taux d’échec élevé, et
alignements insuffisamment précis faisant échouer la soustraction).
• Ces deux voies se sont avérées moins performantes [9] que celle exposée ici.
• La simulation et la synthèse du premier réseau se sont avérés impossibles avec les outils
habituels (Quartus) compte-tenu de sa taille.
83
3.3.4 This + N + draws from + stg
Cet exemple de collocation générique, extrait de l’article de Ben Hoyle, vise à retracer l’origine
d’un élément que l’auteur va présenter : par exemple les prémisses, les processus ou les
mécanismes de son travail. La tournure existe aussi à la voie passive.
• This method draws from the latest techniques and advances in machine learning, in
particular Deep Neural Networks.
• Another excellent source, which this section draws from is the most recent Ph.D. thesis
on the topic of deep learning for computer vision.
• In this work we develop and discuss methods drawn from machine learning, to
accurately estimate photometric redshift PDFs, which will meet both the future storage
demands of large surveys, and the precision demands for cosmological parameter
estimation.
Nous trouvons un équivalent français, qui existe également à la voix passive.
N + s’inspirer de.s + N • Dans cette section, nous abordons une règle qui s’inspire des travaux du
neurophysiologiste Donald Hebb
• Le problème se pose toujours comme la minimisation d’une fonction coût, mais, plutôt
que d’être basée sur un critère d’erreur quadratique (moindres carrés), celle-ci s’inspire
des travaux de Huber sur la recherche de modèles robustes et utilise des écarts absolus.
• Ces expériences, conduites en simulation et sur robot réel, sont fortement inspirées des
travaux de [Floreano and Mattiusi, 2001].
84
3.3.5 To propose a + premodifier + framework + for + N
Cette collocation générique présente les méthodes, les outils, les approches, les techniques.
• To address this issue, we propose a fully data-driven framework for parameter
estimation and model selection in KDSNs.
• In this paper, we propose a heterogeneous multi-task framework for human pose
estimation using a deep convolutional neural network (CNN).
• Raina et al. [41] proposed a GPU-based framework for massively parallelizing
unsupervised learning models including DBNs (in this paper, they refer the algorithms
to stacked RBMs) and sparse coding [21].
Un équivalent français où la préposition « pour » peut être située avant ou après le cadre :
N + proposer un cadre + Adj. post-modifieur + pour • Si les théories modélisant le cerveau comme machine prédictive permettent de proposer
un cadre unificateur pour de nombreux aspects de son fonctionnement, elles
nécessitent toutefois elles-mêmes l’introduction de variables ad-hoc, laissant ouverte la
question de la structure même des représentations apprises (Clark 2013) sur laquelle
nous reviendrons au chapitre 2.
• Dans le chapitre 2, nous avons développé l’hypothèse des sous-variétés pour proposer
un cadre théorique à l’apprentissage de concepts à partir d’informations brutes dans
des espaces de grande dimension.
• Ceci nous permet finalement de proposer un cadre théorique et numérique original
pour la résolution robuste de la stéréophotométrie.
85
3.4 Conseils et pistes pour la poursuite du travail
terminologique
Ce micro-domaine possède une terminologie riche et multidisciplinaire qui est encore en train
de se structurer, comme le démontrent les nombreux néologismes, la terminologie foisonnante,
la siglaison et les débuts de normalisation de certains termes du domaine.
Bien sûr, différentes méthodes peuvent être envisagées pour appréhender un nouveau domaine,
mais au terme de ce travail, disposer d’un corpus bilingue nous a semblé indispensable à nos
recherches. Le classement des différents documents dans des sous-dossiers nous a permis de
lancer des requêtes précises pour répondre à des questions terminologiques. L’utilisation des
différents outils, tous complémentaires, offre également la possibilité de travailler en parallèle
sur un grand corpus et de focaliser certaines recherches sur des sous-dossiers spécifiques dans
d’autres outils. La possibilité de fusionner les sous-corpus, de créer des bitextes, ou de générer
des modélisations à partir de certains termes ou N-grams permet également d’affiner les
recherches.
Le travail mené tout au long de l’année sur la constitution des fiches pour la base ARTES nous
a permis de mieux appréhender le domaine de spécialité et de comprendre ses enjeux
terminologiques. Nous avons pu définir les concepts centraux du domaine, et nous avons appris
à repérer le comportement de certains termes en contexte par le biais de l’étude des collocations.
Les collocations génériques sont également essentielles : pour que notre traduction s’inscrive
de la meilleure façon possible dans un type de discours, il est nécessaire de prendre en compte
les séquences de mots caractéristiques de la langue de spécialité de notre microdomaine. De ce
point de vue, la base de données ARTES est une ressource précieuse pour le traducteur, puisque
l’on y trouve déjà 2133102 collocations génériques dans de nombreuses combinaisons de
langues.
102 Dictionnaire ARTES d’aide à la rédaction de textes scientifiques, date de consultation juillet 2017 ; site : https://artes.eila.univ-paris-diderot.fr/
86
Enfin, contacter des experts dès que possible nous a semblé être un élément crucial qui nous a
permis de valider nos choix terminologiques, de suivre les nouvelles pistes qu’ils nous
recommandaient, et de nous familiariser avec les acteurs du domaine.
Pour de futures recherches terminologiques, nous recommandons le « clustering redshift », qui
représente une piste très intéressante. Par ailleurs, le JWST (James Webb Space Telescope), qui
succédera en 2018 au télescope spatial Hubble pour l'observation dans l'infrarouge est une autre
voie à explorer. Les quantités de données relevées par ce télescope seront astronomiques et le
nombre de publications scientifiques sur l’apprentissage automatique appliqué à la
cosmographie devrait augmenter de manière exponentielle.
87
3.5 Conclusion sur le mémoire de terminologie
Pour bien traduire un article scientifique, il est nécessaire de maîtriser les codes rédactionnels
de sa langue de spécialité. L’approche terminologique axée sur la constitution d’un corpus
spécialisé et l’élaboration d’un dictionnaire (la base ARTES103) comprenant l’étude
approfondie de termes spécifiques aux domaines est un moyen d’appréhender rapidement et de
manière efficace le domaine, tout en l’ancrant d’un point de vue pratique dans l’activité
traduisante, les termes faisant référence à des concepts au cœur de l’article.
L’enjeu central est donc d’aborder la traduction comme le continuum de cette quête de sens et
de fidélité à l’intention de l’auteur. Dans des domaines spécialisés, comme ceux que nous
traitons en traduction pragmatique, le travail de recherche documentaire préalable est impératif
et peut représenter un temps considérable. Pour comprendre les notions et faire face à l’opacité
d’un texte, l’approche systémique permet d’appréhender un domaine par rapport à d’autres.
Dans cette optique, le travail mené en terminologie permet de structurer les connaissances du
traducteur et les différents enjeux de la traduction. Le traducteur expérimente un cheminement,
appréhendant de mieux en mieux les notions au fil du temps pour réussir à tisser des liens entre
les éléments de sens du texte à plusieurs échelles : celle de l’unité de sens, de la phrase, du
paragraphe, de l’article, ou parfois une perspective de plein champ ouvrant à toutes les œuvres
de l’auteur.
L’utilisation des corpus et l’analyse des concordances permet au traducteur de faire des choix
traductologiques raisonnés en se basant sur des données empiriques, ce qui nous semble être un
atout considérable. Le traducteur bâtit son propre corpus dans un micro-domaine, ce qui lui
permet d’aller à l’essentiel : bien maîtriser les concepts et les termes du domaine tant du point
de vue de leurs définitions que de leurs collocations. Une fois ce travail de fond réalisé, le
traducteur peut se concentrer sur l’étude du discours et la réexpression et passer à l’étape de la
traduction.
103 Dictionnaire ARTES d’aide à la rédaction de textes scientifiques, site : https://artes.eila.univ-paris-diderot.fr/
88
4 Mémoire de traduction
4.1 Toute traduction est-elle un commentaire ?
Nous observons de nombreux parallèles entre le travail de traduction et celui du commentaire.
En effet, lors de l’élucidation progressive du texte, traduction et commentaire entrent en
résonnance : ces deux travaux vont de pair durant les phases d’analyse et de décryptage du texte
dans toutes ses dimensions. Face aux difficultés, l’approche systémique permet au traducteur
de prendre position et de s’affirmer dans une traduction, qui évoluera et connaîtra parfois
plusieurs versions, ouvrant de nouvelles perspectives, révélant de nouveaux paradigmes. C’est
cette approche empirique que nous avons tenté de retranscrire au fil de ce travail de
commentaire et dans notre traduction. Elle se focalise autour de l’effort de réexpression
d’éléments de sens d’une langue de spécialité d’un domaine émergent qui continue à se
structurer.
- Dans un premier temps, nous analyserons les impératifs traductologiques de l’article ;
- Dans une seconde partie, nous présenterons quelques stratégies de traduction employées
pour :
o retranscrire la temporalité ;
o comprendre et reformuler les notions au cœur de l’article ;
o intégrer des connaissances extralinguistiques à notre traduction ;
o adopter une approche sémasiologique ;
o déchiffrer les sigles et les groupes nominaux complexes ;
o gagner en clarté et en cohérence ;
o et nous ferons un bilan sur les multiples versions envisagées pour le titre et la
décision finale.
Nous aborderons chacune de ces stratégies de traduction de manière empirique, en synthétisant
la méthodologie employée pour l’exploration du corpus et l’interaction avec les experts. Ainsi
pour chaque question de traduction, nous analyserons plusieurs extraits alignés comme suit :
Le texte source en anglais dans
la première colonne
La première version de la
traduction dans la seconde
colonne
La traduction finale dans la
troisième colonne.
89
4.2 Les impératifs traductologiques de l’article
Comme nous l’avons mentionné dans l’introduction, cet article doit répondre à trois principaux
critères :
- Informer les astronomes qui, même s’ils utilisent dorénavant majoritairement
l’informatique, ne sont pas nécessairement au fait des dernières méthodes employant les
réseaux de neurones profonds ;
- transmettre des informations sur les applications en astronomie aux spécialistes du deep
learning : il y a ici un objectif d’éclaircissement des notions centrales nécessaires pour
avoir un aperçu des perspectives qu’offre le domaine ;
- et informer les spécialistes de ces deux domaines des méthodes à la pointe qui y ont été
développées.
Lors de la traduction, il est donc essentiel de garder ce triple objectif à l’esprit.
Le titre de l’article : Measuring photometric redshifts using galaxy images and Deep Neural
Networks, était l’un des premiers défis posés par cette traduction. Nous aborderons ce point en
dernier, puisqu’il regroupe les réponses à de nombreuses questions que nous nous sommes
posées tout au long de ce parcours de recherche.
90
4.2.1 Premières lectures et question d’échelle
La première question que nous nous sommes posée concerne l’échelle à prendre en compte pour la traduction. Faut-il se focaliser sur le terme, la
phrase, l’unité de sens, l’article dans sa globalité ? Devons-nous prendre en compte l’ensemble des publications de l’auteur pour traduire également
les résonnances qui pourraient se faire écho104 ?
Il nous semble difficile de nous lancer dans la traduction d’un texte d’un domaine si spécialisé sans disposer d’un socle de connaissances de base.
Nos premières lectures nous ont semblé très abstraites, mais c’est essentiellement en partant de termes sur lesquels nos yeux s’attardaient – peut-
être par esthétisme, peut-être pour des perspectives créatrices qu’ils nous évoquaient – que nous avons commencé nos recherches, naviguant
d’article en article, jusqu’à lire l’intégralité des publications de l’auteur de l’article afin d’en appréhender non pas chacun des aspects scientifiques
mais d’avoir une première intuition abstraite et conceptuelle de la manière dont communiquent les experts de ce domaine.
Pour ce commentaire, nous tenterons de faire des découpes du texte permettant d’illustrer quelques stratégies de traduction employées, mais il nous
semble essentiel d’envisager toutes ces « unités » de traduction comme un continuum.
104 Nous faisons ici référence à l’une des questions centrales du colloque international : Des unités de traduction à l’unité de la traduction, première partie, Université Paris Diderot, 7 juillet 2017
91
4.2.2 Retranscrire la temporalité
La lecture d’un commentaire de Claude Vigée, extrait de la revue Palimpsestes, De la traduction comme commentaire au commentaire de
traduction105, nous a fait considérer les perspectives qu’un changement de temps peut influer sur un texte :
Dans tous les cas, le commentaire « actualise » des potentialités inscrites dans le texte qu’il commente car ce texte n’est jamais définitif. Claude Vigée, poète et
traducteur, explique que sa traduction, dans l’un des poèmes évoqués, d’un indicatif par un conditionnel (« history may be freedom » / « L’histoire pourrait être
liberté ») est bien un commentaire personnel visant à introduire l’avenir, la possibilité de choix, l’ouverture, de préférence à l’idée de destin qu’un peut aurait rendue.
The further away the galaxy is from us, the
longer the light has been passing through the
expanding Universe, and the more it becomes
redshifted.
Plus une galaxie est loin de nous, plus sa
lumière traverse l'univers en expansion et se
décale vers le rouge.
Plus une galaxie est lointaine, plus la lumière
qu’elle émet aura traversé l'univers en
expansion et se sera décalée vers le rouge.
105 Boisseau, Marivonne, De la traduction comme commentaire au commentaire de traduction, Palimpsestes, Numéro 20, 2007
92
Dans cet extrait, nous relevons d’une part en anglais, l’emploi du present perfect continuous : “the light has been passing through” dont l’usage
dénote que l’action : le voyage de la lumière, a commencé dans un passé très lointain, continue dans le présent et, de surcroît, dans un univers en
expansion, ce voyage est potentiellement infini.
D’autre part, nous avons observé dans notre corpus qu’en anglais, le terme « redshift » peut être employé sous la forme verbale : to be|to become
redshifted. Il s’articule donc avec des verbes de procès relationnel, en adjectivisant le nom « redshift » en « redshifted ».
Comment traduire cet effet en français et quel temps choisir ? Deux approches traductologiques émergent :
- Soit l’emploi exclusif du présent, que nous avons relevé dans un contexte comparable : Plus une galaxie est lointaine, plus la lumière
qu'elle émet est étirée et déplacée vers l'extrémité du spectre lumineux : vers le rouge.
- soit l’emploi du présent puis du futur antérieur pour exprimer un bilan : Plus une galaxie est lointaine, plus la lumière qu’elle émet
aura traversé l'Univers en expansion et se sera décalée vers le rouge.
La mesure du phénomène de redshift est intrinsèquement liée à la relation à la distance et au temps. L’enjeu est donc de représenter ce voyage de
la lumière à travers l’Univers et le temps, mais jusqu’aux détecteurs comme mentionné un peu plus tôt dans l'article106, donc à un moment donné
précis. Notre positionnement porte donc sur la seconde option, qui dénote l’idée d’un bilan, d’un résultat, dont découle la mesure du redshift.
106 Extrait de l’introduction : […] The distances to galaxies are inferred by the distance-redshift relation which relates how the galaxy light is stretched due to the expansion of the Universe as it travels from the galaxy to our detectors. […]
93
4.2.3 Comprendre et reformuler les notions au cœur de l’article
One can view this new approach as the most
extreme form of feature importance possible
(Hoyle et al., 2015). Feature importance ranks
the chosen properties (or features) of the
galaxy by their predictive power for the task at
hand. In this approach features are not chosen
a priori, but learnt during training.
Cette approche pourrait être considérée comme
le cas le plus extrême de l’importance des
propriétés (Hoyle et al., 2015). L’importance
des propriétés classe les propriétés (ou les
caractéristiques) sélectionnées pour l’étude de
la galaxie en fonction de leur pouvoir prédictif
pour la tâche à accomplir. Dans notre
approche, les propriétés ne sont pas choisies a
priori, mais apprises durant la phase
d’entraînement.
Cette approche peut être considérée comme le
cas le plus extrême de classification des
éléments caractéristiques par ordre
d’importance (Hoyle et al., 2015). Cette
classification des caractéristiques de galaxies
s’effectue en fonction de leur pouvoir prédictif
pour la réalisation d’une tâche cible. Dans
notre approche, les caractéristiques ne sont pas
choisies a priori, mais apprises durant la phase
d’entraînement.
Le terme « feature » présentait un enjeu tout au long de la traduction. Le terme « feature importance » figure en italique dans le texte source : il
fallait le traduire précisément puisqu’il s’agit de la description de l’approche de la recherche menée par Ben Hoyle, qui est défini dans la phrase
suivante. De prime abord, « feature » semble être un terme de la langue générale relativement simple à traduire, mais dans le domaine de
l’apprentissage automatique, il s’agit d’un terme d’une langue de spécialité dont la signification n’a pas été si simple à appréhender.
94
Nos recherches terminologiques et les discussions avec les différents experts nous ont permis d’élaborer une fiche longue de ce terme pour aboutir
à la définition suivante :
Trouver l’équivalent en français n’était pas évident : il pouvait s’agir d’attributs, de propriétés, ou encore de caractéristiques. Nous avons donc
procédé à une estimation du nombre d’occurrences de ces termes, que nous avons réunies dans un tableau :
attribut 378 (82.16 par million) propriété 1,178 (256.05 par million) caractéristique 1,435 (311.91 par million)
Cependant, le critère quantitatif n’est pas suffisant pour retenir le terme « caractéristique », nous avons appliqué la méthode du crochet
terminologique et nous nous sommes concentrés sur le terme « feature selection », qui désigne une phase importante de l’apprentissage
automatique. En français, étant donné que la terminologie du domaine est encore en train de se structurer, il ne semble pas y avoir d’équivalent
établi. Mais en cherchant les équivalents dans d’autres langues, nous avons trouvé une traduction en italien : le terme « selezione delle
caratteristiche ». Nous ennvisagions l’emploi du terme « caractéristiques » et avons émis cette proposition de traduction aux experts francophones,
qui nous ont confirmé que le terme était pertinent dans ce contexte. Cependant, comme le précise la seconde phrase de l’extrait, il s’agit d’une
classification d’éléments par ordre d’importance. Nous avons donc remanié les unités de sens de cet extrait, reformulé la phrase pour finalement
traduire ce concept par la formulation « classification des éléments caractéristiques par ordre d’importance ».
95
4.2.4 Intégrer des connaissances extralinguistiques à notre traduction
This stretching leads to an energy loss of the
photon and a shift towards redder
wavelengths, which is known as the redshift.
Cet étirement conduit à une perte d’énergie des
photons et à un décalage vers des longueurs
d’onde plus allongées dans le « rouge », connu
sous le nom de redshift (ou décalage vers le
rouge).
Cet étirement entraîne une perte d’énergie des
photons et un décalage vers les grandes
longueurs d’onde, connu sous le nom de
redshift (ou décalage vers le rouge).
Nous avons ici affaire à un contexte définitoire du terme redshift, que nous relevons grâce au marqueur « which is known as ». Nous avions déjà
étudié le concept de redshift durant nos recherches terminologiques. L’emprunt à l’anglais du terme « redshift » est d’usage dans cette LSP, comme
nous l’ont confirmé l’expert et nos recherches en corpus.
Nous faisons une recherche en corpus autour des termes « longueurs d’onde » non loin de « rouge ». Nous obtenons ces concordance :
96
Quelques régularités semblent émerger :
- L’adjectif « rouge » est parfois mentionné entre guillemets, ce qui pourrait dénoter une volonté de l’auteur de ne pas entrer dans les détails
et de mentionner uniquement un aspect descriptif censé être suffisamment explicite pour le destinataire : longueurs d’onde de la partie
« rouge », grandes longueurs d’onde dans le « rouge » ;
- un phénomène de colligation de la préposition « vers », qui se retrouve fréquemment en cooccurrence avec cet adjectif : vers le rouge, vers
la partie du spectre correspondant au rouge ;
- enfin, plusieurs concordances explicitent la notion de manière plus définitoire :
les raies de son spectre sont déplacées vers les grandes longueurs d’onde , c’est-à-dire vers la partie du spectre correspondant au rouge.
en fonction des longueurs d’ onde correspondant au rouge
mesurent des quantités de lumière dans les longueurs d’ onde situées autour du rouge
Nous avons finalement choisi d’évoquer la notion scientifique centrale : le décalage vers les grandes longueurs d’onde, puis d’introduire le terme
« redshift » en y ajoutant le terme français entre parenthèses, qui inclut la notion de couleur : « décalage vers le rouge ».
97
The distances to galaxies are inferred by the
distance-redshift relation which relates how the
galaxy light is stretched due to the expansion
of the Universe as it travels from the galaxy to
our detectors.
Les distances des galaxies sont déduites par la
relation entre la distance et le redshift, qui
exprime l’étirement de la lumière de la galaxie
en raison de l'expansion de l'Univers,
lorsqu’elle voyage de la galaxie jusqu’à nos
détecteurs.
Nous calculons la distance des galaxies grâce à
la relation entre la distance et le redshift, qui
exprime l’augmentation de la longueur d'onde
de la lumière émise par les galaxies en raison
de l'expansion de l'Univers, lorsque la lumière
voyage de la galaxie jusqu’à nos détecteurs.
L’extrait ci-dessus est issu d’une section de l’introduction destinée à expliquer les concepts astronomiques à des néophytes : par exemple aux
spécialistes du deep learning qui s’intéressent aux applications en astronomie. Dans un premier temps, nous avons traduit l’adjectif « stretched »
par nominalisation, en évoquant « l’étirement » de la lumière, puisqu’au moment de ce premier jet de traduction nous n’avions pas encore toutes
les clés nécessaires à la compréhension du concept de redshift.
Comme nous l’avons mentionné dans le protocole de recherche documentaire, avons ensuite mené des recherches autour du concept de redshift, et
nous avons notamment trouvé ce contexte définitoire :
WHAT IS REDSHIFT? 'Redshift' is a key concept for astronomers. The term can be understood literally - the wavelength of the light is stretched, so the light is seen
as 'shifted' towards the red part of the spectrum. Something similar happens to sound waves when a source of sound moves relative to an observer.
Conserver l’image de l’étirement présente l’avantage de permettre aux lecteurs néophytes de visualiser le phénomène.
Dans la seconde version de la traduction, nous nous sommes éloignés d’une traduction littérale et avons exprimé le phénomène en y incluant les
connaissances extralinguistiques issues de nos recherches : il s’agit bien d’un étirement de la longueur d’onde de la lumière. En allant plus loin
98
dans nos recherches, nous avons constaté que le terme « longueur d’onde » entre en collocation avec le verbe « augmenter » ou le substantif
« augmentation ». Ces formulations provoquent également l’effet visuel recherché, nous avons donc retenu cette seconde version.
99
Obtaining very accurate spectroscopic
redshifts, which measures the redshifted
spectral absorption and emission lines,
requires very long exposure times on
dedicated spectrographs and is typically only
performed for a small sub-sample of all
galaxies.
Pour obtenir un redshift spectroscopique très
précis, des temps d’exposition très longs sur
des spectrographes spécifiques sont
nécessaires : une mesure de l’absorption
spectrale et des raies d’émission décalées vers
le rouge qui ne s’effectue généralement que
sur un sous-échantillon réduit de toutes les
galaxies.
La procédure permettant l’obtention de
redshifts spectroscopiques très précis consiste
à mesurer le redshift de l’absorption spectrale
et des raies d’émission. Elle nécessite des
temps d’exposition très longs sur des
spectrographes spécifiques et ne s’effectue
généralement que sur un sous-échantillon
réduit de toutes les galaxies.
Cet extrait est intéressant puisqu’il est riche en connaissances et présente plusieurs liens conceptuels.
L’enjeu principal était de traduire l’unité de sens principale de la phrase « Obtaining very accurate spectroscopic redshifts » et de la relier à sa
définition (la mesure), ses prérequis (le temps d’exposition) et ses limites (sous-échantillon réduit). Notre première version de la traduction était
une tentative de reformulation des unités de sens, mais qui manquait de précision : la syntaxe de la phrase en français ne reflétait pas précisément
les liens sémantiques. Nous avons donc remanié les éléments de sens en créant cette fois deux phrases pour expliquer la procédure dans une seconde
version plus détaillée, mais qui gagne en lisibilité.
De plus, au cœur de cette phrase, le cluster « very long exposure times », a nécessité des recherches dans le corpus français des occurrences du
terme « temps d’exposition » associé à l’adjectif « long » pour valider cette traduction.
100
Ces concordances nous ont permis de confirmer que l’on parle bien de « temps d’exposition longs ».
101
4.2.5 Approche sémasiologique et utilité de la transposition
To produce a fair comparison with the image
analysis, we choose to use the de-reddened
model magnitudes in the g, r, i, z bands and the
size of each galaxy measured by the Petrosian
radius in the r band.
Pour que la comparaison soit équitable en
regard de l'analyse de l'image, nous choisissons
d'utiliser les magnitudes de modèle dont la
couleur rouge a été soustraite dans les bandes
g, r, i, z et la taille de chaque galaxie mesurée
par le rayon pétrosien dans la bande r.
Pour que la comparaison soit juste en regard de
l'analyse de l'image, nous choisissons d'utiliser
des modèles redéfinis dont la couleur rouge a
été soustraite des bandes g, r, i, z et la taille de
chaque galaxie mesurée par le rayon pétrosien
dans la bande r.
En premier lieu, nous sommes intéressés au sens de l’adjectif « de-reddened » au sein du cluster « de-reddened model magnitude ». L’auteur de
l’article ayant accepté de répondre à nos questions, nous l’interrogeons sur ce terme, voici sa réponse :
Julia Pagès : In section 2 Galaxy data and images: "we choose to use the de-reddened model magnitudes in the g, r, i, z bands." Does the verb "de-redden" mean you
use the magnitudes of models in which the color red has been deleted? Is "model magnitudes" a specific term?
Ben Hoyle: This means that the magnitudes have been corrected for "galactic extinction". This is caused by the dust in our galaxy, and makes galaxies appear less
bright (at bluer wavelenghts) than they actually are. We need to correct for this effect, so we get the true color or magnitude of the galaxy.
Il s’agit d’une correction d’effets observés, qui est opérée durant la phase de prétraitement des images.
102
Nous lançons une requête dans notre corpus afin de trouver des contextes mentionnant les termes « poussière » non loin du préfixe « rougi* », ce
qui nous permet de trouver un équivalent de la notion en français « le rougissement par la poussière ».
Cette piste nous mène à adopter une approche sémasiologique pour déterminer concrètement en quoi consiste la correction du traitement de l’image élaborée par l’auteur.
Nous nous intéressons plus en détails au terme « galactic extinction » mentionné par Ben Hoyle, en cherchant « extinction » non loin de
« galaxie|galactique » et trouvons le contexte définitoire suivant :
Extinction due à la Galaxie. Même si le Soleil, et donc la Terre, se trouvent en périphérie de la Voie Lactée, ils n’en restent pas moins des composants de la Galaxie
entouré des autres composants comme le gaz et la poussière. Ceci entraine donc le fait que la lumière qui nous parvient sur Terre a été atténuée par rapport au signal
qui a été émis. C’est l’extinction galactique.
De même, nous trouvons que l’on peut employer la collocation « correction pour l’extinction + Substantif (d’un objet céleste) :
103
Nos recherches documentaires nous mènent à découvrir le phénomène d’ « interstellar extinction », qui est l’hypéronyme du terme
« galactic extinction ». Cela nous permet d’ajouter une nouvelle branche pour cette taxinomie à notre arborescence.
Il est intéressant de noter que dans ces articles spécialisés, le terme renvoie directement à la correction de l’effet observé dans le cadre du traitement
d’images. Le référent n’est donc pas le phénomène en lui-même, mais ses effets sur l’image absorbée par le détecteur. Le processus de correction
des images prend en compte ces phénomènes au moyen de calculs : l’expert Vivien Scottez nous explique qu’il s’agit d’une opération de
soustraction de la couleur, nous avons donc opté pour « la couleur rouge a été soustraite des bandes g, r, i, z ».
104
4.2.6 Déchiffrer les sigles et les groupes nominaux complexes
The galaxy data in this study are drawn from
the SDSS Data Release 10 (Ahn et al., 2014).
The SDSS I–III uses a 2.4 m telescope at
Apache Point Observatory in New Mexico and
has CCD wide field photometry in 5 bands
(Gunn et al., 2006; Smith et al., 2002), and an
expansive spectroscopic follow up programme
(Eisenstein and D.J., 2011) covering π
steradians of the northern sky.
Les données de la galaxie de cette étude sont
issues du SDSS Data Release 10 (Ahn et al.,
2014). Le SDSS I–III emploie un télescope de
2,4 m de l'observatoire Apache Point du
Nouveau-Mexique qui possède un photomètre
grand champ doté d’un CCD (charge-couple
device : dispositif à transfert de charges) de 5
bandes (Gunn et al., 2006; Smith et al., 2002),
et un programme de suivi spectroscopique
expansif (Eisenstein et D.J., 2011) couvrant π
steradians du ciel nord.
Pour cette étude, les données de galaxie sont
issues du SDSS Data Release 10 (Ahn et al.,
2014). Les trois premières générations du
relevé (SDSS I–III) emploient un télescope de
2,5 m de diamètre, situé à l'observatoire
Apache Point du Nouveau-Mexique, dont le
système photométrique comprend des capteurs
CCD (charge-couple device : dispositif à
transfert de charges) grand champ et un jeu de
5 filtres (Gunn et al., 2006; Smith et al., 2002).
Les SDSS I-III s’inscrivent dans un vaste
programme de relevés spectroscopiques
(Eisenstein et D.J., 2011) couvrant π steradians
du ciel nord.
105
Cet extrait présentait plusieurs enjeux de traduction. Le premier jet était une traduction littérale du texte source que nous n’avions pas encore
totalement élucidé, ainsi les référents concrets des sigles SDSS I–III et CCD nous étaient encore inconnus. Nos recherches nous ont permis de
comprendre que les relevés astronomiques, tels que le SDSS, sont généralement nommés par des sigles (dont une liste non-exhaustive figure dans
la section 2.3.1), et que l’on parle de « génération de relevés » : comme nous le constatons dans la concordance ci-dessous.
Le baryon oscillation spectroscopic survey (BOSS), principale composante de la troisième génération de relevés SDSS, a été le premier à utiliser les gigantesques émetteurs que sont les quasars pour cartographier la distribution du gaz d'hydrogène intergalactique et ainsi mesurer la structure de l'Univers jeune. 107
Ici, les connaissances extralinguistiques du traducteur dans un champ spécialisé entrent de nouveau en jeu, il nous a semblé pertinent de commencer
la phrase en étoffant légèrement pour indiquer qu’il s’agit des trois premières générations du relevé.
Concernant le second sigle « CCD », la construction de l’arborescence et le travail de recherche documentaire préalable nous ont été d’une grande
utilité : ainsi, dans la section 3.2.1.1, nous avons établi les liens holonymes / méronymes entre les termes « télescope », « photomètre », « filtre »
et « CCD ». Il nous semble que si le texte source mentionne le terme « bande », en français le terme approprié serait l’objet, donc le « filtre ». Nous
y voyons un exemple représentatif de l’importance d’un travail terminologique minutieux : des liens bien établis entre les termes permettent au
traducteur spécialisé de retravailler son texte à la lumière de ses connaissances d’ensemble.
107 Roos, Léa, Les astronomes du Sloan Digital Sky Survey réalisent la mesure la plus précise à ce jour du taux d’expansion de l’univers, CEA, Communiqué de presse, avril 2014
106
En explorant les concordances de notre corpus, nous découvrons les termes « système photométrique » et « jeu de filtres » qui nous semblent être
les plus appropriés dans ce contexte :
Il existe de nombreux standards photométriques. Les filtres Sloan sont conformes au système photométrique du SDSS (Sloan Digital Sky Survey). Conçu par Fukugita et al, ce système comprend un jeu de 5 filtres non chevauchants, couvrant une largeur spectrale allant de 300nm (dans l'ultraviolet) à 1100nm (dans l'infrarouge).
C’est ce contexte qui nous a permis de reformuler notre traduction dans sa version finale : « télescope de 2,5 m de diamètre, situé à l'observatoire
Apache Point du Nouveau-Mexique, dont le système photométrique comprend des capteurs CCD (charge-couple device : dispositif à transfert de
charges) grand champ et un jeu de 5 filtres ».
Enfin, le groupe nominal complexe « expansive spectroscopic follow up programme » nous pose deux problèmes de traduction : d’une part il faut
identifier la tête de ce groupe nominal complexe. Il s’agit là d’un problème terminologique auquel le traducteur est souvent confronté. D’autre part,
nous devons saisir de quoi il s’agit : est-ce un vaste programme informatique opéré à distance ou un ensemble de relevés astronomiques ? Nous
nous référons à la source mentionnée pour y voir plus clair :
Building on the legacy of the Sloan Digital Sky Survey (SDSS-I and II), SDSS-III is a program of four spectroscopic surveys on three scientific themes: dark energy and cosmological parameters, the history and structure of the Milky Way, and the population of giant planets around other stars.
Nous comprenons alors qu’il s’agit d’un « vaste programme de relevé spectroscopique couvrant π steradians du ciel nord ».
107
4.2.7 Gagner en clarté et en cohérence
We randomly shuffle and subdivide the
64,647 galaxies into training, cross-validation
and test samples of size 33,167, 4047, and
27,433. In what follows we train the machine
learning architectures on the training sample.
We then vary the hyperparameters of the
machine learning architecture and retrain a
new model.
Pour les phases d’entraînement, de validation
croisée et de test, nous subdivisons de façon
aléatoire les 64 647 galaxies en échantillons de
dimensions : 33 167, 4 047 et 27 433. Puis,
nous entraînons les architectures
d'apprentissage automatique avec l'échantillon
d’entraînement. Nous choisissons ensuite de
nouveaux hyperparamètres pour l’architecture
d'apprentissage de la machine pour entraîner
un nouveau modèle.
Nous mélangeons aléatoirement les 64 647
galaxies que nous subdivisons en trois jeux de
données : 33 167 pour la phase
d’apprentissage, 4 047 pour la phase de
validation croisée et 27 433 pour la phase de
test. Puis, nous entraînons le DNN avec le jeu
de données d’apprentissage. Nous choisissons
ensuite de nouveaux hyperparamètres pour
l’architecture d’apprentissage automatique
pour entraîner un nouvel échantillon.
Pour cet extrait, nous avons eu recours à l’aide des experts pour valider les termes en lien avec les phases d’entraînement des réseaux de neurones :
notamment le verbe « to vary », qui adopte parfois un sens particulier dans certaines LSP. L’auteur du texte nous a apporté quelques précisions.
Julia Pagès : Concerning the verb "to vary", as it sometimes has a specific technical meaning in context, I would like to clarify if this is a part of "feature selection" that
means "to select another variable/hyper-parameter", or if it means "to change the values of the hyper-parameters"?
108
Ben Hoyle : It means "to select another variable/hyper-parameter" and see how it peforms, and then to "to select another variable/hyper-parameter" again ...
Une fois cette terminologie acquise, il nous a fallu comprendre le processus au moyen duquel la machine procède au mélange aléatoire des images.
Ainsi, dans un premier temps nous avions traduit les unités de traduction dans le même ordre que le texte source. Cependant, il s’est avéré nécessaire
de réorganiser les éléments de sens et de les présenter dans un ordre permettant ainsi une meilleure compréhension en français. Il nous a semblé
cohérent de présenter d’abord le nombre total de galaxies, puis nous avons compris que chacun des jeux de données correspondait à une phase
spécifique de l’apprentissage. Nous avons donc reformulé la phrase dans ce sens.
109
4.2.8 Versions envisagées pour le titre et décision finale
Voici le résultat de plusieurs semaines de remises en question des possibilités de traduction du titre et de la justesse des termes à employer :
Titre source : Measuring photometric redshifts using galaxy images and Deep Neural Networks
Mesure du décalage vers le rouge photométrique à l’aide d’images de galaxies et de réseaux de neurones profonds
Système de mesure du redshift photométrique par les réseaux de neurones profonds appliqués au traitement d’images de galaxies
Méthode de mesure du redshift photométrique par les réseaux de neurones appliqués au traitement d’images de galaxies
Estimation du redshift photométrique par les réseaux de neurones appliqués au traitement d’images de galaxies
Utilisation de DNNs appliqués au traitement d’images de galaxies pour la mesure du redshift photométrique
Utilisation de méthodes de deep learning appliquées au traitement d’images de galaxies pour la mesure du Photo-Z
DNNs appliqués au traitement d’images de galaxies pour l’estimation du Photo-Z
- Comme nous l’avons vu tout au long du commentaire terminologique, nous avons constaté que les traductions littérales ne sont pas encore
installées pour la plupart des termes en français : dans la communauté scientifique, les experts parlent plus souvent entre eux de « redshift
photométrique » que de « décalage vers le rouge ».
- En approfondissant nos recherches terminologiques et l’importance du phénomène de la siglaison dans ce micro domaine, nous observons
que les spécialistes, aussi bien dans le domaine de l’astronomie que du deep learning, ont tendance à employer de plus en plus souvent des
sigles comme DNNs, et l’abréviation Photo-Z.
- S’agissant d’un titre, nous préférons qu’il soit le plus clair possible et que le lecteur arrive à extraire les informations nécessaires dans un
temps optimal. C’est pourquoi nous avons choisi la quatrième version pour le titre : « Estimation du redshift photométrique par les réseaux
de neurones appliqués au traitement d’images de galaxies ».
110
Parmi toutes ces possibilités, prendre la bonne décision semble être une tâche difficile, tant les paradigmes sont multiples et semblent parfois
s’entrecroiser. Heureusement, l’utilisation des outils à la disposition du traducteur et le travail en corpus nous a permis d’y voir plus clair pour
matérialiser une stratégie.
111
4.3 Conclusion sur le mémoire de traduction
“A translator without a computer is like a taxi driver without a taxi”, Xosé Castro Roig, 2003
Ces dernières années, les avancées technologiques ont modifié en profondeur l’exercice du
métier de traducteur et la linguistique de corpus présente de nombreux avantages pour notre
profession. Bâtir son propre corpus dans un domaine et en analyser les concordances permet de
mettre en relief les termes et les concepts clés du domaine. Grâce à ces outils, le traducteur peut
manipuler des corpus de millions de mots et appréhender un domaine plus rapidement et
efficacement pour se concentrer sur la reformulation du discours dans toutes ses nuances en
langue de spécialité. Au travers du travail mené cette année et au fil des exemples évoqués dans
le commentaire de traduction, nous avons pu constater les avantages que présentent ces outils
pour la rédaction dans une langue de spécialité : que ce soit pour comprendre un élément de
sens, trouver l’unité terminologique la plus adaptée, utiliser la meilleure collocation ou tout
simplement vérifier l’emploi d’une préposition.
Il n’en reste pas moins que les compétences purement humaines de la traduction sont au cœur
de notre activité : notre capacité à comprendre les subtilités de la langue, notamment au niveau
pragmatique, tout comme les nuances liées à la communication interculturelle. C’est
précisément ce qui rend le métier de traducteur essentiel et fascinant.
112
4.4 Traduction alignée
Texte source Première version de la traduction Version finale de la traduction
Measuring photometric redshifts 108using
galaxy images and Deep Neural Networks
DNNs appliqués au traitement d’images de
galaxies pour l’estimation du Photo-Z
Estimation du redshift photométrique par les
réseaux de neurones appliqués au traitement
d’images de galaxies
B. Hoyle
Universitaets-Sternwarte, Fakultaet fuer
Physik, Ludwig-Maximilians Universitaet
Muenchen, Scheinerstr. 1, D-81679,
Muenchen, Germany Excellence Cluster
Universe, Boltzmannstr. 2, D-85748,
Garching, Germany
B. Hoyle
Observatoire de Munich, Faculté de Physique,
Université Louis-et-Maximilien de Munich,
Scheinerstr. 1, D-81679, Munich, Allemagne,
Excellence Cluster Universe, Boltzmannstr. 2,
D-85748, Garching, Allemagne
B. Hoyle
Observatoire de Munich, Faculté de Physique,
Université Louis-et-Maximilien de Munich,
Scheinerstr. 1, D-81679, Munich, Allemagne,
Excellence Cluster Universe, Boltzmannstr. 2,
D-85748, Garching, Allemagne
ABSTRACT RÉSUMÉ RÉSUMÉ
108 Légende : fiche longue en jaune, fiche courte en bleu, fiche glossaire en rose
113
We propose a new method to estimate the
photometric redshift of galaxies by using
the full galaxy image in each measured
band. This method draws from the latest
techniques and advances in machine
learning, in particular Deep Neural
Networks.
Nous proposons une nouvelle méthode
d’estimation du redshift photométrique qui
utilise l’image complète de la galaxie dans
chaque bande spectrale mesurée. Cette
méthode s’inspire des dernières techniques et
progrès de l'apprentissage automatique et plus
particulièrement des réseaux de neurones
profonds (en anglais : Deep Neural Networks,
DNNs).
Nous proposons une nouvelle méthode
d’estimation du redshift photométrique qui
utilise l’image complète de la galaxie dans
chaque bande spectrale mesurée. Cette méthode
s’inspire des dernières techniques et progrès de
l'apprentissage automatique et plus
particulièrement des réseaux de neurones
profonds (en anglais : Deep Neural Networks,
DNNs).
We pass the entire multi-band galaxy image
into the machine learning architecture to
obtain a redshift estimate that is
competitive, in terms of the measured point
prediction metrics, with the best existing
standard machine learning techniques.
L'architecture d'apprentissage automatique est
alimentée par une image multibande de la
galaxie complète afin d’obtenir une estimation
du redshift dont la précision des point mesurés
rivalise les meilleures techniques classiques
d'apprentissage automatique.
Nous appliquons une image multibande de la
galaxie complète en entrée de l’architecture
d’apprentissage automatique, afin d’obtenir une
estimation du redshift dont la précision rivalise
les techniques courantes d'apprentissage
automatique.
114
The standard techniques estimate redshifts
using post-processed features, such as
magnitudes and colours, which are
extracted from the galaxy images and are
deemed to be salient by the user. This new
method removes the user from the
photometric redshift estimation pipeline.
Classiquement, la mesure du redshift
s’effectue à l'aide de méthodes de post-
traitement appliquées aux images de galaxies
dont les valeurs extraites, telles que les
mesures de magnitude et les indices de
couleur, sont considérées comme étant les plus
saillantes par l’utilisateur. Mais le pipeline de
traitement des données utilisé dans cette
nouvelle méthode ne nécessite pas
d’intervention de l’utilisateur.
Les techniques de calculs courantes du redshift
sont basées sur des caractéristiques de post-
traitement extraites d’images de galaxies, telles
que les mesures de magnitude et les couleurs,
qui sont considérées comme étant les plus
saillantes par l’utilisateur. Dans cette nouvelle
méthode, l’utilisateur n’intervient pas dans le
pipeline de traitement des données utilisé.
However we do note that Deep Neural
Networks require many orders of magnitude
more computing resources than standard
machine learning architectures, and as such
are only tractable for making predictions on
Cependant, nous constatons que les réseaux de
neurones profonds exigent beaucoup plus de
ressources informatiques que les architectures
classiques d'apprentissage automatique. En
tant que tels, ils ne peuvent être utilisés que
pour faire des prédictions sur des jeux de
Cependant, nous constatons que les réseaux de
neurones profonds exigent des ressources
informatiques d’un ordre de grandeur supérieur
à celles des architectures classiques
d'apprentissage automatique. En tant que tels, ils
peuvent uniquement traiter et faire des
115
datasets of size ≤50k before implementing
parallelisation techniques.
données de taille ≤ 50 k avant la mise en place
de la parallélisation.
prédictions sur des jeux de données d’une taille
≤ 50 k avant la parallélisation.
1. Introduction 1. Introduction 1. Introduction
To maximise the cosmological information
available from current and upcoming large
scale galaxy surveys, one requires robust
distance estimates to many galaxies. The
distances to galaxies are inferred by the
distance-redshift relation which relates how
the galaxy light is stretched due to the
expansion of the Universe as it travels from
the galaxy to our detectors.
Pour maximiser les données cosmologiques
disponibles grâce aux relevés galactiques à
grande échelle actuels et à venir, il est
nécessaire de recueillir de solides estimations
de distance de nombreuses galaxies. Les
distances des galaxies sont déduites par la
relation entre la distance et le redshift, qui
exprime l’étirement de la lumière de la galaxie
en raison de l'expansion de l'Univers,
lorsqu’elle voyage de la galaxie jusqu’à nos
détecteurs.
Pour maximiser les données cosmologiques
disponibles grâce aux relevés galactiques à
grande échelle en cours ou à venir, il faut
disposer d’estimations de distance fiables de
nombreuses galaxies. Nous calculons la distance
des galaxies grâce à la relation entre la distance
et le redshift, qui exprime l’augmentation de la
longueur d'onde de la lumière émise par les
galaxies en raison de l'expansion de l'Univers,
lorsque la lumière voyage de la galaxie jusqu’à
nos détecteurs.
This stretching leads to an energy loss of the
photon and a shift towards redder
Cet étirement conduit à une perte d'énergie des
photons et à un décalage vers des longueurs
Cet étirement entraîne une perte d'énergie des
photons et un décalage vers les grandes
116
wavelengths, which is known as the
redshift. The further away the galaxy is
from us, the longer the light has been
passing through the expanding Universe,
and the more it becomes redshifted.
d'onde plus allongées dans le « rouge », connu
sous le nom de redshift (ou décalage vers le
rouge). Plus une galaxie est loin de nous, plus
sa lumière traverse l'univers en expansion et se
décale vers le rouge.
longueurs d’onde, connu sous le nom de redshift
(ou décalage vers le rouge). Plus une galaxie est
lointaine, plus la lumière qu’elle émet aura
traversé l'univers en expansion et se sera décalée
vers le rouge.
Obtaining very accurate spectroscopic
redshifts, which measures the redshifted
spectral absorption and emission lines,
requires very long exposure times on
dedicated spectrographs and is typically
only performed for a small sub-sample of all
galaxies.
Pour obtenir un redshift spectroscopique très
précis, des temps d’exposition très longs sur
des spectrographes spécifiques sont
nécessaires : une mesure de l’absorption
spectrale et des raies d’émission décalées vers
le rouge qui ne s’effectue généralement que
sur un sous-échantillon réduit de toutes les
galaxies.
La procédure permettant l’obtention de redshifts
spectroscopiques très précis consiste à mesurer
le redshift de l’absorption spectrale et des raies
d’émission. Elle nécessite des temps
d’exposition très longs sur des spectrographes
spécifiques et ne s’effectue généralement que
sur un sous-échantillon réduit de toutes les
galaxies.
Conversely, the measurement of multi-band
photometric properties of galaxies is much
À l’inverse, la mesure des propriétés
photométriques multibandes des galaxies est
À l’inverse, la caractérisation photométrique
multibande des galaxies est moins coûteuse en
117
cheaper. The compromise is then to attempt
to extract less accurate redshift information
from photometrically measured properties,
but applied to a much larger galaxy sample.
Photometric redshift estimates are obtained
from either template fitting techniques,
machine learning techniques, or some
hybrid of the two for example using data
augmentation (Hoyle et al., 2015).
beaucoup moins onéreuse. Le compromis
consiste alors à tenter d'extraire des
informations de redshift moins précises à partir
de valeurs photométriques, mais d’un
échantillon de galaxies beaucoup plus grand.
Les estimations du redshift photométrique
peuvent être obtenues à partir de procédures
d'ajustement de modèles, de techniques
d'apprentissage automatique ou d'un hybride
des deux, par exemple en utilisant
l'augmentation des données (Hoyle et al.,
2015).
temps de calcul. Le compromis consiste alors à
tenter d'extraire des mesures de redshift moins
précises à partir des caractéristiques
photométriques d’un échantillon de galaxies
beaucoup plus grand. Les estimations de redshift
photométrique peuvent être obtenues à partir de
procédures d'ajustement de modèles, de
techniques d'apprentissage automatique ou
d'une méthode hybride comprenant ces deux
méthodes, par exemple au moyen de
l’augmentation de données (Hoyle et al., 2015).
The template methods are parametric
techniques and
are constructed from templates of the
Spectral Energy Distribution of the
Les méthodes matricielles sont des modèles
paramétriques construits à partir de
modélisations de la distribution énergétique
spectrale des galaxies. Certains modèles
Les méthodes utilisant des modèles sont des
modèles paramétriques construits à partir de
modélisations de la distribution énergétique
spectrale des galaxies. Certains modèles
118
galaxies. Some templates encode our
knowledge of stellar population models
which result in predictions for the evolution
of galaxy magnitudes and colours.
encodent nos connaissances des modèles de
population stellaire et permettent de prédire
l'évolution des magnitudes et des couleurs de
galaxie.
encodent nos connaissances des modèles de
population stellaire et permettent de prédire
l'évolution des magnitudes et des couleurs de
galaxie.
The parametric encoding of the complex
stellar physics coupled with the uncertainty
of the parameters of the stellar population
models, combine to produce redshift
estimates which are little better than many
non-parametric techniques.
L’encodage des paramètres de la physique
stellaire complexe, auquel s’ajoute
l'incertitude des paramètres des modèles de
population stellaire, s’associent pour induire
des estimations de redshift qui ne sont guère
meilleures que les mesures obtenues grâce aux
nombreuses autres techniques non-
paramétriques.
Le codage paramétrique de la physique stellaire
complexe associé à l'incertitude sur les
paramètres des modèles de population stellaire
induisent des estimations de redshift qui ne sont
guère meilleures que les mesures obtenues grâce
aux nombreuses autres techniques non-
paramétriques.
See e.g., Hildebrandt et al. (2010), Dahlen
(2013) for an overview of different
techniques. Unlike nonparametric and
machine learning techniques, the
Voir par exemple Hildebrandt et al. (2010),
Dahlen (2013) pour un aperçu des différentes
techniques. Contrairement aux techniques
d'apprentissage non paramétrique et
Voir par exemple Hildebrandt et al. (2010),
Dahlen (2013) pour un aperçu des différentes
techniques. Contrairement aux techniques
d'apprentissage non paramétrique et
119
aforementioned template methods do not
rely on training samples of galaxies, which
must be assumed to be representative of the
final sample of galaxies for which redshift
estimates are required.
d'apprentissage automatique, les méthodes
utilisant des modèles ne nécessitent pas
d’entraînement à base d’échantillons, qui sont
censés être représentatifs des galaxies pour
lesquelles des estimations de redshift sont
requises.
d'apprentissage automatique, les méthodes
utilisant des modèles ne nécessitent pas
d’entraînement à base d’échantillons, qui sont
présumés être représentatifs des galaxies pour
lesquelles des estimations de redshift sont
requises.
Other template methods are generated either
completely from, or in combination with,
empirical data, however these templates
both require tuning, and also rely upon
representative training samples.
D'autres méthodes utilisant des modèles sont
générées soit indépendamment, soit en
combinaison avec des données empiriques.
Cependant, ces deux modèles impliquent des
réglages et dépendent également
d’échantillons d’entraînement représentatifs.
D'autres méthodes utilisant des modèles sont
générées soit indépendamment, soit en
combinaison avec des données empiriques.
Cependant, ces deux modèles impliquent des
réglages et dépendent également d’échantillons
d’entraînement représentatifs.
When an unbiased training sample is
available, machine learning methods offer
an alternative to template methods to
estimate galaxy redshifts.
Lorsqu'un échantillon d’apprentissage sans
biais est disponible pour l’entraînement, les
méthodes d'apprentissage automatique
Lorsqu'un échantillon d’apprentissage sans biais
est disponible pour l’entraînement, les méthodes
d'apprentissage automatique constituent une
120
constituent une alternative aux approches
utilisant des modèles pour estimer le redshift.
alternative aux approches utilisant des modèles
pour estimer le redshift.
The ‘machine architecture’ determines how
to best manipulate the photometric galaxy
input properties
(or ‘features’) to produce a machine
learning redshift. The machine attempts to
learn the most effective manipulations to
minimise the difference between the
spectroscopic redshift and the machine
learning redshift of the training sample.
L'architecture machine détermine comment
manipuler au mieux les propriétés d’entrée
photométriques des galaxies (que nous
appellerons « propriétés » par la suite), pour
obtenir, grâce à l’apprentissage automatique,
une estimation du redshift. La machine tente
d'apprendre les manipulations optimales pour
minimiser la différence entre le redshift
spectroscopique et le redshift d'apprentissage
automatique calculé sur l'échantillon
d’entraînement.
L'architecture machine optimise l’utilisation des
caractéristiques photométriques des galaxies
fournies en entrée (que nous appellerons
dorénavant « caractéristiques »), pour obtenir,
grâce à l’apprentissage automatique, une
estimation du redshift. La machine tente
d'apprendre les manipulations optimales pour
minimiser la différence entre le redshift
spectroscopique et le redshift d'apprentissage
automatique calculé sur l'échantillon
d’entraînement.
The field of machine learning for
photometric redshift analysis has been
Le domaine de l’apprentissage automatique
pour l'analyse du redshift photométrique se
développe depuis l’utilisation des réseaux de
Le domaine de l’apprentissage automatique
pour l'analyse du redshift photométrique se
développe depuis l’utilisation des réseaux de
121
developing since Tagliaferri et al. (2003)
used artificial Neural Networks (aNNs).
neurones artificiels (aNNs) par Tagliaferri et
al. (2003).
neurones artificiels (aNNs) dans les travaux de
Tagliaferri et al. (2003).
A plethora of machine learning
architectures, including tree based methods,
have been applied to the problem of point
prediction redshift estimation (Sánchez and
Photometric, 2014) or to estimate the full
redshift probability distribution function
(Gerdes et al., 2010; Carrasco Kind and
Brunner, 2013; Bonnett, 2015; Rau et al.,
2015). Machine learning architectures have
also had success in other fields of
astronomy such as galaxy morphology
identification, and star&quasar separation
(Lahav, 1997; Yeche et al., 0000).
Une pléthore d'architectures d'apprentissage
automatique, y compris des méthodes
employant des arbres de décision, a été
appliquée au problème de l'estimation redshift
des points (Sánchez and Photometric, 2014) ou
pour estimer la fonction de distribution en
probabilité du redshift (Gerdes et al., 2010;
Carrasco Kind and Brunner, 2013; Bonnett,
2015; Rau et al., 2015). Les architectures
d'apprentissage automatique ont également fait
leurs preuves dans d'autres domaines de
l'astronomie comme l'identification de la
morphologie des galaxies ou la séparation
Une pléthore d'architectures d'apprentissage
automatique, y compris des méthodes
employant des arbres de décision, a été
appliquée au problème de l'estimation de valeur
ponctuelle du redshift (Sánchez and
Photometric, 2014) ou pour estimer la fonction
de distribution de probabilité du redshift (Gerdes
et al., 2010; Carrasco Kind and Brunner, 2013;
Bonnett, 2015; Rau et al., 2015). Les
architectures d'apprentissage automatique ont
également fait leurs preuves dans d'autres
domaines de l'astronomie tels que
l'identification de la morphologie des galaxies
122
étoile-quasar (Lahav, 1997; Yeche et al.,
2009).
ou la séparation étoile-quasar (Lahav, 1997;
Yeche et al., 2009).
The use of Deep Neural Networks
(hereafter DNN) as the machine learning
architecture has only recently been applied
to problems in astrophysics.
Ce n’est que récemment que l'utilisation de
réseaux neuronaux profonds (que nous
appellerons dorénavant DNN : deep neural
networks en anglais) comme architecture
d'apprentissage automatique a été appliquée
aux problèmes d'astrophysique.
Ce n’est que récemment que l'utilisation d’une
architecture d'apprentissage automatique basée
sur les réseaux de neurones profonds (que nous
appellerons dorénavant DNN : Deep Neural
Networks en anglais) a été appliquée aux
problèmes d'astrophysique.
For example Dieleman et al. (2015) taught
a DNN to replicate the detailed
morphological classifications obtained by
the citizen scientists answering questions
within the Galaxy Zoo 2 project (Willett et
al., 2013) and obtained an accuracy of up to
99% on some classification questions, and
(Hála, 2014) examined the problem of
Par exemple, Dieleman et al. (2015) a entraîné
un DNN à reproduire les classifications
morphologiques détaillées obtenues par les
astronomes amateurs qui avaient répondu aux
questions du projet Galaxy Zoo 2 (Willett et
al., 2013). Cela a permis d'obtenir des mesures
d’une précision allant jusqu'à 99 % sur
certaines questions de classification, et (Hála,
Par exemple, Dieleman et al. (2015) a entraîné
les DNN à reproduire les classifications
morphologiques détaillées obtenues par les
astronomes amateurs qui avaient répondu aux
questions du projet Galaxy Zoo 2 (Willett et al.,
2013). Cela a permis d'obtenir des mesures
d’une précision allant jusqu'à 99 % sur certaines
questions de classification, et (Hála, 2014) a
123
spectral classification from Sloan Digital
Sky Survey (Ahn et al., 2014) (hereafter
SDSS) spectra.
2014) a étudié la question de la classification
spectrale du Sloan Digital Sky Survey (Ahn et
al., 2014) (ci-après SDSS).
étudié la question de la classification spectrale
du Sloan Digital Sky Survey (Ahn et al., 2014)
(ci-après SDSS).
Within the standard machine learning
approach the choice of which photometric
input features to train the machine
architecture, from the full list of possible
photometric features, is still left to the
discretion of the user.
Dans l'approche classique de l’apprentissage
automatique, l’utilisateur sélectionne, parmi
une liste de toutes les caractéristiques
photométriques possibles, les propriétés
photométriques d’entrée qui effectueront
l’entraînement de l'architecture.
Dans l'approche classique de l’apprentissage
automatique, l’utilisateur sélectionne, parmi une
liste de tous les éléments d’entrée possibles, les
caractéristiques photométriques qui seront
utilisées pour l’entraînement de l'architecture.
The current author recently performed an
analysis of ‘feature importance’ for
photometric redshifts, which uses machine
learning techniques to determine which of
the many possible photometric features
produce the most predictive power (Hoyle
et al., 2015).
L’auteur a récemment effectué un classement
de l’« importances des propriétés »
révélatrices du redshift photométrique. Ainsi,
grâce aux techniques d'apprentissage
automatique, il est possible, parmi toutes les
possibilités de propriétés, de déterminer celles
L’auteur a récemment effectué un classement
de l’« importances des caractéristiques » les plus
représentatives du redshift photométrique.
Ainsi, grâce aux techniques d'apprentissage
automatique, il est possible, parmi différentes
propriétés, de déterminer celles dont le pouvoir
prédictif est le plus élevé (Hoyle et al., 2015).
124
dont la puissance prédictive est la plus efficace
(Hoyle et al., 2015).
The technique described in this paper is the
most extreme example of feature
importance possible. We no longer need to
impose our prior beliefs upon which derived
photometric features produce the best
redshift predictive power, or even measure
the photometric properties.
Le modèle que nous présentons est le cas le
plus extrême de l’importance des propriétés. Il
n’est plus nécessaire de postuler quelles
propriétés photométriques dérivées auront la
meilleure puissance prédictive de redshift, ni
même de mesurer les propriétés
photométriques.
Le modèle que nous présentons est le cas le plus
extrême de l’importance des propriétés. Il n’est
plus nécessaire de projeter des connaissances a
priori pour postuler les propriétés
photométriques dérivées qui auront le meilleur
pouvoir prédictif de redshift, ni même de
mesurer les propriétés photométriques.
By passing the entire galaxy image into the
Deep Neural Network machine learning
framework we completely remove the user
from the photometric redshift estimation
process.
Dans notre approche, passer l’image complète
de la galaxie dans l’architecture
d'apprentissage automatique (DNN) ne
requiert aucune intervention de l'utilisateur
lors du processus d’estimation du redshift
photométrique.
Dans notre approche, en introduisant l’image
complète de la galaxie dans l’architecture
d'apprentissage automatique (DNN) nous
écartons complètement l'utilisateur du processus
d’estimation du redshift photométrique.
125
Furthermore in order to use either the
template or standard machine learning
techniques to estimate redshifts, the
magnitudes, colours, and other properties of
the galaxies must be measured.
Par ailleurs, pour utiliser le modèle ou les
techniques standard d'apprentissage
automatique d’estimation du redshift, les
magnitudes, les couleurs et les autres
propriétés des galaxies doivent être mesurées.
Par ailleurs, tant les méthodes utilisant des
modèles que les techniques standard
d'apprentissage automatique d’estimation du
redshift impliquent de mesurer les magnitudes,
les couleurs et d’autres propriétés des galaxies.
The analysis presented in this paper, which
uses the full image of the galaxy partially
removes this requirement. However we do
still currently need the galaxy to have been
detected so that we can generate a postage
stamp image.
L'analyse présentée dans ce document, qui
utilise l'image complète de la galaxie,
supprime partiellement cette condition. Or, la
détection préalable de la galaxie est à ce jour
toujours nécessaire pour générer une image
aux dimensions d’un timbre-poste.
L'analyse présentée dans cet article, qui utilise
l'image complète de la galaxie, supprime
partiellement cette exigence. Cependant, nous
avons à ce jour toujours besoin de détecter les
galaxies au préalable pour produire une image
aux dimensions d’un timbre-poste.
The outline of the paper is as follows. In
Section 2 we describe the galaxy images
and the pre-processing steps to prepare the
images for the Deep Neural Networks.
Le plan de notre article est le suivant : dans la
deuxième partie (2), nous décrivons les images
de galaxies et les étapes de prétraitement des
données qui prépareront les images à
l’entraînement par le DNN.
Le plan de notre article est le suivant : dans la
section 2, nous décrivons les images de galaxies
et les étapes de prétraitement des données qui
prépareront les images à l’entraînement par les
DNN.
126
We then introduce both of the machine
learning architectures in Section 3, and
present the analysis and results in Section 4.
We conclude and discuss in
Section 5.
Nous présentons ensuite les deux architectures
d'apprentissage automatique dans la troisième
partie. La quatrième partie comprend l'analyse
et les résultats. Enfin, la cinquième partie
inclut la conclusion et la discussion.
Nous présentons ensuite les deux architectures
d'apprentissage automatique dans la section 3.
La section 4 comprend l'analyse et les résultats.
Enfin, la section 5 inclut la conclusion et la
discussion.
2. Galaxy data and images 2. Galaxy Data et images 2. Données de galaxies et images
The galaxy data in this study are drawn
from the SDSS Data Release 10 (Ahn et al.,
2014). The SDSS I–III uses a 2.4 m
telescope at Apache Point Observatory in
New Mexico and has CCD wide field
photometry in 5 bands (Gunn et al., 2006;
Smith et al., 2002), and an expansive
spectroscopic follow up programme
Les données de la galaxie de cette étude sont
issues du SDSS Data Release 10 (Ahn et al.,
2014). Le SDSS I–III emploie un télescope de
2,4 m de l'observatoire Apache Point du
Nouveau-Mexique qui possède un photomètre
grand champ doté d’un CCD (charge-couple
device : dispositif à transfert de charges) de 5
bandes (Gunn et al., 2006; Smith et al., 2002),
et un programme de suivi spectroscopique
Pour cette étude, les données de galaxie sont
issues du SDSS Data Release 10 (Ahn et al.,
2014). Les trois premières générations du relevé
(SDSS I–III) emploient un télescope de 2,5 m de
diamètre, situé à l'observatoire Apache Point du
Nouveau-Mexique, dont le système
photométrique comprend des capteurs CCD
(charge-couple device : dispositif à transfert de
charges) grand champ et un jeu de 5 filtres
127
(Eisenstein and D.J., 2011) covering π
steradians of the northern sky.
expansif (Eisenstein et D.J., 2011) couvrant π
steradians du ciel nord.
(Gunn et al., 2006; Smith et al., 2002). Les
SDSS I-III s’inscrivent dans un vaste
programme de relevés spectroscopiques
(Eisenstein et D.J., 2011) couvrant π steradians
du ciel nord.
The SDSS collaboration has obtained 2
million galaxy spectra using dual fibrefed
spectrographs. An automated photometric
pipeline performs object classification to a
magnitude of r ≈ 22 and measures
photometric properties of more than 100
million galaxies.
La collaboration dans le cadre du SDSS a
permis d’obtenir deux millions de spectres de
galaxies grâce à l’utilisation de spectrographes
double-fibres. Un pipeline photométrique
automatisé effectue la classification d’objets
jusqu’à une magnitude de r ≈ 22 et mesure les
propriétés photométriques de plus de 100
millions de galaxies.
La collaboration dans le cadre du SDSS a permis
d’obtenir deux millions de spectres de galaxies
grâce à l’utilisation de spectrographes double-
fibres. Un pipeline photométrique automatisé
effectue la classification d’objets jusqu’à une
magnitude de r ≈ 22 et mesure les propriétés
photométriques de plus de 100 millions de
galaxies.
The complete data sample, and many
derived catalogs such as the photometric
Tous les échantillons de données et de
nombreux catalogues dérivés, comme les
Tous les échantillons de données et de
nombreux catalogues dérivés, comme les
128
properties, and 5 band FITS images are
publicly available through the SDSS
website.
propriétés photométriques et les images 5
bandes FITS sont accessibles au public sur le
site Web du SDSS.
caractéristiques photométriques et les images 5
bandes FITS sont accessibles au public sur le
site Web du SDSS.
We obtain 64,647 sets of images from the
SDSS servers for a random selection of
galaxies which are chosen to pass the
following photometric selection criteria; the
angular extent must be less than 30 arc
seconds as measured by the ‘Exponential’
and ‘de’ Vaucouleurs’ light profiles in the r
band; and that each g, r, i, z has magnitudes
greater than 0.
Nous obtenons 64647 séries d'images à partir
des serveurs SDSS et de la sélection aléatoire
de galaxies selon les critères photométriques
suivants : leur étendue angulaire doit être
inférieure à 30 secondes d’arc d’après les
mesures des profils de brillances ‘exponentiel’
et ‘de Vaucouleurs’ dans la bande r ; et chaque
bande : g, r, i, z doit avoir une magnitude
supérieure à 0.
Nous obtenons 64 647 séries d'images à partir
des serveurs SDSS et de la sélection aléatoire de
galaxies selon les critères photométriques
suivants : leur étendue angulaire doit être
inférieure à 30 secondes d’arc d’après les
mesures des profils de brillance ‘exponentiel’ et
‘de Vaucouleurs’ dans la bande r ; et chaque
bande : g, r, i, z doit avoir une magnitude
supérieure à 0.
We further select galaxies which pass the
following spectroscopic selection criteria;
the error on the spectroscopic redshift to be
Nous choisissons également les galaxies qui
répondent aux critères de sélection
spectroscopiques suivants : l'erreur sur le
Nous choisissons également les galaxies qui
répondent aux critères de sélection
spectroscopiques suivants : l'erreur sur le
129
less than 0.1 and the spectroscopic redshift
must be below 2. We check that none of the
selected galaxies have images with missing
or masked pixel values. In detail we run the
MySQL query as shown in the appendix in
the CasJobs server.
redshift spectroscopique doit être inférieure à
0,1 et le redshift spectroscopique doit être
inférieur à 2. Nous vérifions qu'aucune des
galaxies sélectionnées ne comporte d’images
dont les valeurs de pixels manquent ou sont
masquées. En détail, nous exécutons la requête
MySQL comme indiqué dans l'appendice du
serveur CasJobs.
redshift spectroscopique doit être inférieure à
0,1 et le redshift spectroscopique doit être
inférieur à 2. Nous vérifions qu'aucune des
galaxies sélectionnées ne comporte d’images
dont les valeurs de pixels manquent ou sont
masquées. En détail, nous exécutons la requête
MySQL comme indiqué dans l'annexe du
serveur CasJobs.
We choose to obtain the galaxy image FITS
files in the following four photometric
bands; g, r, i, z. This enables a closer
resemblance to the bands available in other
photometric surveys, for example the Dark
Energy Survey (The Dark Energy Survey
Collaboration, 0000).
Nous choisissons d'obtenir les fichiers FITS de
galaxie dans les quatre bandes photométriques
suivantes : g, r, i et z. Cela permet de
rapprocher davantage les bandes disponibles
dans d'autres relevés photométriques, par
exemple la Dark Energy Survey (The Dark
Energy Survey Collaboration, 0000).
Nous paramétrons l’obtention de fichiers
d’images de galaxie FITS dans les quatre bandes
photométriques suivantes : g, r, i et z. Cela
permet d’optimiser les similitudes avec les
bandes rendues disponibles par d'autres relevés
photométriques, par exemple le Dark Energy
130
Survey (The Dark Energy Survey Collaboration,
0000).
Each pixel in the FITS file has a resolution
of 0.396 arc seconds and contains the
measured flux which has been corrected for
a range of observational and instrument
effects such as flat fielding and sky
subtraction, in order to be suitable for
astronomical analysis. All pixel fluxes are
converted to pixel magnitudes following
Lupton et al. (1999).
Chaque pixel du fichier FITS contient une
résolution de 0,396 secondes d'arc ainsi qu’un
flux mesuré auquel on applique une série de
corrections des biais dus aux observations et
aux instruments, comme la correction du flat
field (champ plan) et la soustraction du ciel,
pour préparer les données à l'analyse
astronomique. Tous les flux de pixels sont
convertis en magnitude de pixel d’après
Lupton et al. (1999).
Chaque pixel du fichier FITS a une résolution de
0,396 secondes d'arc et correspond à un flux
mesuré auquel nous avons appliqué un certain
nombre de corrections des biais dus aux
observations et aux instruments, comme la
correction de champ plat et la soustraction du
fond du ciel, pour préparer les données à
l'analyse. Tous les flux de pixels sont convertis
en magnitude de pixel en suivant Lupton et al.
(1999).
We apply a further extinction correction to
account for galactic dust using the maps of
Schlegel et al. (1998) which is available
Nous appliquons une nouvelle correction
d'extinction pour éliminer la poussière
galactique en utilisant les cartes de Schlegel et
Nous appliquons une nouvelle correction
d'extinction pour éliminer la poussière
galactique en utilisant les cartes de Schlegel et
131
from the photoObjAll table in the CasJobs
server. The extinction corrections are
subtracted from the value of magnitude in
each pixel in the corresponding FITS files.
We choose to use FITS images of size
72×72 pixels, corresponding to 28.5 arc
seconds on a side.
al. (1998), qui sont disponibles dans le tableau
photoObjAll du serveur CasJobs. Les
corrections d'extinction sont soustraites de la
valeur de magnitude de chaque pixel dans les
fichiers FITS correspondants. Nous
choisissons d'utiliser des images FITS d’une
dimension de 72×72 pixels, soit 28,5 secondes
d’arc de côté.
al. (1998), qui sont disponibles dans le tableau
photoObjAll du serveur CasJobs. Ces
corrections pour l’extinction sont soustraites de
la valeur de magnitude de chaque pixel dans les
fichiers FITS correspondants. Nous choisissons
d'utiliser des images FITS d’une dimension de
72×72 pixels, soit 28,5 secondes d’arc de côté.
We have explored the use of other image
dimensions
(32×32) but do not find improvement in the
obtained results. The chosen image size is
motivated by, and closely follows earlier
work using SDSS images (Dieleman et al.,
2015), and ensures that the training times
are tractable.
Nous avons étudié l’utilisation d'autres
dimensions d'image (32×32) mais les résultats
obtenus ne présentent aucune amélioration. La
taille de l'image choisie est justifiée et suit de
près les travaux antérieurs utilisant les images
du SDSS (Dieleman et al., 2015), ce qui
garantit que les temps d’entraînement sont
réalistes.
Nous avons envisagé l’utilisation d'autres
dimensions d'image (32×32) mais les résultats
obtenus ne présentent aucune amélioration. La
taille de l'image choisie est justifiée et suit de
près les travaux antérieurs utilisant les images
du SDSS (Dieleman et al., 2015), ce qui garantit
que les temps d’entraînement peuvent être
respectés.
132
In the top row of Fig. 1 we show RGB jpeg
images of three example galaxies with the
following mappings; g band magnitude →
R, r band magnitude → G, and the i band
magnitude → B. All pixel magnitudes are
further rescaled across the entire layer to be
integers within the range 0 to 255 for
viewing purposes only.
Dans la ligne supérieure de la Fig. 1, figurent
les images JPEG de trois exemples de galaxies
avec les mappings suivants : magnitude de la
bande g → R, magnitude de la bande r → G, et
magnitude de la bande i → B. Afin de faciliter
la visualisation des résultats, toutes les
magnitudes de pixels sont ensuite remises à
l’échelle sur l'ensemble du filtre et représentent
des entiers entre 0 et 255.
Dans la ligne supérieure de la Fig. 1, figurent les
images JPEG de trois exemples de galaxies avec
les mises en correspondance suivante pour les
valeurs RVB : magnitude de la bande g → R,
magnitude de la bande r → V, et magnitude de
la bande i → B. Afin de faciliter la visualisation
des résultats, toutes les magnitudes de pixels
sont ensuite remises à l’échelle sur l'ensemble
du système photométrique et convertis en
nombres entiers entre 0 et 255.
We further modify these base images to be
more suitable for photometric redshift
analysis by producing pixel colours from
the pixel magnitudes and map pixel colours
to each RGB layer pixel. We map the pixel
colours i–z to the R layer pixels, r–I to the
Nous modifions plus en détail ces images de
base pour les rendre compatibles avec l'analyse
du redshift photométrique. Nous calculons
l’indice de couleur des pixels à partir des
magnitudes de pixels et nous attribuons des
couleurs de pixels à chacune des trois
En outre, nous modifions ces images de base
pour les rendre compatibles avec l'analyse du
redshift photométrique. Nous calculons l’indice
de couleur des pixels à partir de leur valeur et
nous attribuons des couleurs à chacune des trois
composantes RVB. Nous procédons ensuite à
133
G layer pixels, and g–r to the B layer pixels.
Finally we pass the r band pixel magnitude
into an additional Alpha layer to produce an
RGBA image.
composantes RVB. Nous attribuons les
couleurs de pixels i-z aux pixels de la couche
R, r-I aux pixels de la couche V, et g-r aux
pixels de la couche B. Enfin, nous passons la
bande R d'amplitude des pixels dans une
couche Alpha additionnelle pour produire une
image RVBA.
l’appariement des couleurs de pixels i-z aux
pixels de la couche R, r-I aux pixels de la couche
V, et g-r aux pixels de la couche B. Enfin, nous
passons la bande R d'amplitude des pixels dans
une couche Alpha additionnelle pour produire
une image RVBA.
The r band magnitude is often used in this
way to act as a pivot point which provides
an overall normalisation to the input data.
This may be useful during training and is
common practice in photometric redshift
analysis using neural networks (see e.g.,
Brescia et al., 2014). Examples of these
modified images are shown in the second
L'amplitude de la bande R est souvent utilisée
comme valeur de référence pour effectuer la
normalisation globale des données d'entrée.
Cette pratique est courante dans l'analyse du
redshift photométrique par des réseaux de
neurones (voir par exemple Brescia et al.,
2014) et peut être utile durant l’entraînement.
Des exemples d’images modifiées figurent
dans la deuxième ligne de la Figure 1 (à des
L'amplitude de la bande R est souvent utilisée
comme valeur de référence pour effectuer la
normalisation globale des données d'entrée.
Cette pratique est courante dans l'analyse du
redshift photométrique par des réseaux de
neurones (voir par exemple Brescia et al., 2014)
et peut être utile durant l’entraînement. Des
exemples d’images modifiées figurent dans la
deuxième ligne de la Figure 1 (à des fins de
134
row of Fig. 1, but we show only the RGB
values for viewing purposes.
fins de visualisation nous présentons
uniquement les valeurs RVB).
visualisation nous présentons uniquement les
valeurs RVB).
During the analysis we scale all of the
images, such that the maximum pixel value
of 255 corresponds to the largest value
across all training and test images in each of
the RGBA layers separately. Likewise the
minimum pixel value of 0 is set to be the
smallest value in each layer across all
images.
Pendant l'analyse, toutes les images sont
redimensionnées pour que la valeur maximale
de pixel ‘255’ corresponde à la plus grande
valeur parmi toutes les images d’entraînement
et de test, et ce, dans chacune des couches
RVBA. De même, nous attribuons une valeur
minimale de pixel ‘0’ à chaque filtre et dans
toutes les images.
Pendant l'analyse, toutes les images sont
redimensionnées pour que la valeur maximale
de pixel ‘255’ corresponde à la plus grande
valeur parmi toutes les images d’entraînement et
de test, et ce, dans chacune des couches RVBA.
De même, nous attribuons une valeur minimale
de pixel ‘0’ à chaque filtre et dans toutes les
images.
For a comparison with standard machine
learning architectures we obtain model
magnitudes measured by the SDSS
photometric pipeline for each of the
galaxies. To produce a fair comparison with
the image analysis, we choose to use the de-
Pour comparer notre méthode aux
architectures d'apprentissage automatique
standard, nous déterminons les magnitudes
pour les modèles, qui sont mesurées par le
pipeline de photométrie SDSS pour chacune
des galaxies. Pour que la comparaison soit
Pour comparer notre méthode aux architectures
d'apprentissage automatique standard, nous
déterminons les amplitudes modèles, qui sont
mesurées par le pipeline photométrique SDSS
pour chacune des galaxies. Pour que la
comparaison soit juste en regard de l'analyse de
135
reddened model magnitudes in the g, r, i, z
bands and the size of each galaxy measured
by the Petrosian radius in the r band.
équitable en regard de l'analyse de l'image,
nous choisissons d'utiliser les magnitudes de
modèle dont la couleur rouge a été soustraite
dans les bandes g, r, i, z et la taille de chaque
galaxie mesurée par le rayon pétrosien dans la
bande r.
l'image, nous choisissons d'utiliser des modèles
redéfinis dont la couleur rouge a été soustraite
des bandes g, r, i, z et la taille de chaque galaxie
mesurée par le rayon pétrosien dans la bande r.
We randomly shuffle and subdivide the
64,647 galaxies into training, cross-
validation and test samples of size 33,167,
4047, and 27,433. In what follows we train
the machine learning architectures on the
training sample. We then vary the
hyperparameters of the machine learning
architecture and retrain a new model.
Pour les phases d’entraînement, de validation
croisée et de test, nous subdivisons de façon
aléatoire les 64647 galaxies en échantillons de
dimensions : 33167, 4047 et 27433. Puis, nous
entraînons les architectures d'apprentissage
automatique avec l'échantillon d’entraînement.
Nous choisissons ensuite de nouveaux
hyperparamètres pour l’architecture
d'apprentissage de la machine pour entraîner
un nouveau modèle.
Nous mélangeons aléatoirement les 64 647
galaxies que nous subdivisons en trois jeux de
données : 33 167 pour la phase d’apprentissage,
4 047 pour la phase de validation croisée et
27 433 pour la phase de test. Puis, nous
entraînons le DNN avec le jeu de données
d’apprentissage. Nous choisissons ensuite de
nouveaux hyperparamètres pour l’architecture
d’apprentissage automatique pour entraîner un
nouvel échantillon.
136
We select which is the best trained model
using the cross-validation sample, which is
completely independent from the training
sample. After choosing a final model, we
pass the test sample through the final model
to obtain machine learning redshift
predictions. These redshift distributions
produce a fair estimate of the ability of the
machine learning architecture to predict
redshifts for other galaxies which are
representative of the training sample.
Nous choisissons le modèle le mieux entraîné
en utilisant l'échantillon de validation croisée,
qui demeure complètement indépendant de
l'échantillon d’entraînement. Après avoir
sélectionné le modèle final, nous passons
l'échantillon test au crible du modèle final afin
d’obtenir les prédictions du redshift grâce à
l’apprentissage automatique. Ces distributions
en redshift permettent d’estimer le plus
précisément possible la capacité de prédiction
du redshift de l'architecture d'apprentissage
automatique appliquée à d'autres galaxies qui
sont représentatives de l'échantillon de
formation.
Nous choisissons le modèle le mieux entraîné en
utilisant l'échantillon de validation croisée, qui
demeure complètement indépendant de
l'échantillon d’entraînement. Après avoir
sélectionné le modèle final, nous passons
l'échantillon test à travers le modèle final afin
d’obtenir les prédictions du redshift grâce à
l’apprentissage automatique. Ces distributions
du redshift permettent d’estimer le plus
précisément possible la capacité de prédiction
du redshift par l'architecture d'apprentissage
automatique appliquée à d'autres galaxies qui
sont représentatives de l'échantillon
d’entraînement.
In Fig. 2 we show the spectroscopic redshift
number distribution of training (thick blue
La figure 2 comprend la valeur de la
distribution en redshift spectroscopique des
La figure 2 comprend la valeur de la distribution
du redshift spectroscopique dans les phases
137
line) and test (thin orange line) galaxies
used in this work. The stepped lines
represent the classification bins which have
a width of 0.01 in redshift.
phases d’entraînement (ligne bleue épaisse) et
de test (fine ligne orange) des galaxies étudiées
dans ce travail. Les lignes échelonnées
représentent les emplacements de distribution
d’une largeur de redshift de 0,01.
d’entraînement (ligne bleue épaisse) et de test
(fine ligne orange) correspondant aux galaxies
étudiées dans ce travail. Les courbes en escalier
représentent des emplacements de classification
d’une largeur de redshift de 0,01.
3. Machine learning architectures 3. Architectures d'apprentissage automatique 3. Architectures d'apprentissage automatique
In this work we utilise the latest
developments in the field of machine
learning by using Deep Neural Networks
(DNNs). In particular we pass the entire
galaxy image into the DNN to obtain a
redshift estimate. As a comparison method
we use a
machine learning framework called boosted
trees which produce the current state of the
art photometric redshift estimates using
Notre méthode est à la pointe de
l'apprentissage automatique grâce à
l’utilisation de DNNs. Détaillons plus avant le
principe de l’architecture. Nous passons
l'image de galaxie complète dans le DNN afin
d’obtenir une estimation de redshift. Pour
effectuer la comparaison, nous employons un
système d'apprentissage automatique appelé
« boosted trees » (arbres de décision «
boostés »), qui produit des estimations de
Notre méthode est à la pointe de l'apprentissage
automatique grâce à l’utilisation de DNNs. Nous
passons l'image de galaxie complète dans les
DNNs afin d’obtenir une estimation de redshift.
Pour effectuer la comparaison, nous employons
un système d'apprentissage automatique appelé
« boosted trees » (arbres de décision «
boostés »), qui produit des estimations de
redshift photométrique reflétant l'état de l’art et
emploie des caractéristiques photométriques
138
standard photometric features. We describe
both architectures in more detail below.
redshift photométrique reflétant l'état de l’art et
emploie des propriétés photométriques
standard. Nous décrivons ces deux
architectures plus en détail ci-dessous.
standard. Nous décrivons ces deux architectures
plus en détail ci-dessous.
3.1. Deep neural networks 3.1. Deep neural networks (DNNs) 3.1. Réseaux de neurones profonds (DNNs)
Major advances in many areas of machine
learning have recently been produced using
DNNs. DNNs are based on standard neural
networks, which are themselves inspired by
the learning connections between biological
neurons and synapses in the human brain.
Neural networks have input layers, hidden
layers and output layers. For our purposes,
the input layers are the real valued
photometric feature vectors that are
measured for each galaxy.
Dans de nombreux domaines de
l'apprentissage automatique, nous devons les
progrès les plus importants à l’utilisation des
DNNs. L’architecture des DNNs est fondée sur
celle des réseaux de neurones classiques, qui
sont eux-mêmes inspirés du fonctionnement
des neurones et synapses du cerveau humain.
Les réseaux de neurones sont constitués de
couches d’entrée, de couches cachées et de
couches de sortie. Dans notre modèle, les
couches d’entrée sont les valeurs réelles des
Dans de nombreux domaines de l'apprentissage
automatique, nous devons les progrès les plus
importants à l’utilisation des DNNs.
L’architecture des DNNs est fondée sur celle des
réseaux de neurones classiques, qui sont eux-
mêmes inspirés du fonctionnement des neurones
et synapses du cerveau humain. Les réseaux de
neurones sont constitués de couches d’entrée, de
couches cachées et de couches de sortie. Dans
notre modèle, les couches d’entrée sont les
139
vecteurs photométriques mesurés pour chaque
galaxie.
valeurs réelles des vecteurs photométriques
mesurés pour chaque galaxie.
The output layer is the real valued floating
point prediction for the redshift. The hidden
layers are connected to the input layers and
they combine and weight the input values to
produce a new real valued number, which is
then passed to the output layer. The weights
of the connections between the layers are
updated during the training phase in order to
make the output value for each galaxy as
close as possible to the spectroscopic
redshift for that galaxy.
La couche de sortie correspond à l’estimation
de la valeur réelle du point flottant du redshift.
Les couches cachées sont connectées aux
couches d'entrée : elles combinent et pondèrent
les valeurs d'entrée pour produire une nouvelle
valeur réelle, qui est ensuite transmise à la
couche de sortie. Les poids qui relient les
couches sont mis à jour durant la phase
d’entraînement afin d’estimer, pour chaque
galaxie, la valeur de sortie la plus proche de
son redshift spectroscopique.
La couche de sortie correspond à l’estimation de
la valeur réelle du point flottant du redshift. Les
couches cachées sont connectées aux couches
d'entrée : elles combinent et pondèrent les
valeurs d'entrée pour produire une nouvelle
valeur réelle, qui est ensuite transmise à la
couche de sortie. Les poids qui relient les
couches sont mis à jour durant la phase
d’entraînement afin d’estimer, pour chaque
galaxie, la valeur de sortie la plus proche de son
redshift spectroscopique.
DNNs depart from these simple neural
networks by constructing many hidden
layers, with many multiple connected
Les réseaux de neurones profonds ont été créés
sur la base des réseaux de neurones classiques,
mais de multiples couches cachées ont été
Les réseaux de neurones profonds ont été créés
sur la base des réseaux de neurones classiques,
mais de multiples couches cachées ont été
140
neurons per layer. DNNs can also accept
images as input layers using an architecture
called Convolutional Neural Networks
(Lecun and Bengio, 1995), instead of
vectors of real valued numbers. The
Convolutional Neural Networks retain
information about the physical location of
pixels with respect to other pixels and are
used efficiently in combination with the
Max Out algorithm (Goodfellow et al.,
0000).
ajoutées à leur architecture. Ainsi, pour chaque
couche, plusieurs neurones sont connectés. Les
DNNs peuvent accepter des images dans la
couche d'entrée, en utilisant une architecture
appelée réseau de neurones convolutifs (ou
CNN, Convolutional Neural Networks en
anglais) (Lecun et Bengio, 1995), au lieu de
vecteurs de valeurs réelles. Les réseaux de
neurones convolutifs retiennent des
informations sur l'emplacement physique des
pixels par rapport à d'autres pixels et sont
employés de manière efficace en combinaison
avec l'algorithme Max Out (Goodfellow et al.,
0000).
ajoutées à leur architecture. Ainsi, pour chaque
couche, plusieurs neurones sont connectés. Les
DNNs peuvent accepter des images dans la
couche d'entrée, en utilisant une architecture
appelée réseau de neurones à convolution (ou
CNNs, Convolutional Neural Networks en
anglais) (Lecun et Bengio, 1995), au lieu de
vecteurs de valeurs réelles. Les réseaux de
neurones à convolution retiennent des
informations sur l'emplacement physique des
pixels par rapport à d'autres pixels et sont
employés de manière efficace en combinaison
avec l'algorithme Max Out (Goodfellow et al.,
0000).
The power of DNNs comes from recent
advances in how the connections between
Si les DNNs sont si puissants, c’est grâce aux
progrès récents concernant la manière dont
Si les DNNs sont si puissants, c’est grâce aux
progrès récents concernant la manière dont
141
the many millions of neurons are trained.
Previously the many millions of
connections would quickly overfit even
large training sets, and thereby lose the
DNNs
predictive power. One major advancement
is the Dropout (Hinton et al., 0000)
technique, which ignores a random number
of neurons during each training round.
s’effectue l’entraînement entre les connexions
des millions de neurones. Jusque-là, ces
millions de connexions pouvaient rapidement
induire un sur-apprentissage sur de grands jeux
de données d’apprentissage, ce qui diminuait
le pouvoir prédictif des DNNs. La technique
Dropout (Hinton et al., 0000) constitue une
avancée majeur, puisqu’à chaque série
d’entraînement, elle permet de ne pas tenir
compte d’un nombre aléatoire de neurones.
s’effectue l’entraînement entre les connexions
des millions de neurones. Jusque-là, ces millions
de connexions pouvaient rapidement induire un
sur-apprentissage sur de grands ensembles
d’entraînement, ce qui diminuait le pouvoir
prédictif des DNNs. La technique Dropout
(Hinton et al., 0000) constitue une avancée
majeure : à chaque série d’entraînement, elle
permet de ne pas tenir compte d’un nombre
aléatoire de neurones.
This effectively results in each training
round learning a ‘weak model’, which is
then combined to produce a final model
with a lot of predictive power, and a lower
chance of overfitting. Weak models have
low predictive power by themselves,
Ainsi, le DNN est entraîné sur un « modèle
faible » et sur plusieurs séries. Ces modèles
faibles peuvent être combinés afin de produire
un modèle final possédant une bonne
puissance prédictive, ce qui permet de
diminuer le phénomène de sur-apprentissage.
Ainsi, le DNN est entraîné sur un « modèle
faible » et sur plusieurs séries. Ces modèles
faibles peuvent être combinés afin de produire
un modèle final possédant de bonnes capacités
prédictives, ce qui permet de diminuer le
phénomène de sur-apprentissage. Certes, les
142
however the predictions of many weak
models can be weighted and combined to
produce models with much stronger
predictive power.
Certes, les modèles faibles ont une faible
puissance prédictive, mais les prédictions
cumulées de plusieurs modèles faibles peuvent
être pondérées et combinées afin de produire
des modèles disposant d’une meilleure
puissance prédictive.
modèles faibles ont une faible puissance
prédictive, mais les prédictions cumulées de
plusieurs modèles faibles peuvent être
pondérées et combinées afin de produire des
modèles disposant d’une meilleure puissance
prédictive.
To further ensure that the DNN, does not
overfit we apply data augmentation
techniques to produce many training
examples for each of the original input
images. We apply random image flipping
and rotations, and randomly select a sub
patch of size 60 × 60 pixels to pass into the
DNN. The image rotations are performed in
discreet 90° intervals. We use these
methods to increase the training sample size
Pour éviter le phénomène de sur-
apprentissage, nous appliquons des techniques
d’augmentation de données afin de produire,
pour chacune des images originales d’entrée,
de nombreux exemples d’entraînement. Nous
appliquons des retournements et des rotations
aléatoires aux images, en sélectionnant
aléatoirement un sous-jeu de taille 60 × 60
pixels, que nous fournissons en entrée au
DNN. Les rotations d’images sont effectuées
Pour éviter le phénomène de sur-apprentissage,
nous appliquons des techniques d’augmentation
de données afin de produire, pour chacune des
images originales d’entrée, de nombreux
exemples d’entraînement. Nous appliquons des
retournements et des rotations aléatoires aux
images, en sélectionnant aléatoirement un sous-
jeu de taille 60 × 60 pixels, que nous fournissons
en entrée aux DNNs. Les rotations d’images
sont effectuées en intervalles discrets de 90°.
143
by a factor of 80. We do not currently apply
whitening techniques to add noise to the
images, which can further help with
overfitting.
en intervalles discrets de 90°. Nous utilisons
ces méthodes pour augmenter la taille de
l’échantillon d’entraînement d’un facteur de
80. Nous n’appliquons pas, pour le moment, de
techniques visant à blanchir le bruit, qui
pourraient par la suite diminuer le sur-
apprentissage.
Nous utilisons ces méthodes pour augmenter la
taille de l’échantillon d’entraînement d’un
facteur de 80. Nous n’appliquons pas, pour le
moment, de techniques de blanchiment de bruit,
qui pourraient par la suite diminuer le sur-
apprentissage.
We choose to use a base DNN architecture
inspired by Krizhevsky et al. (2012) that
obtains state of the art results on the
ImageNet dataset (Russakovsky et al.,
0000). We modify the base DNN to accept
images of dimension 4 × 60 × 60 and which
produces an output layer with 94
classification bins, which correspond to
redshift slices of width 0.01. We have also
Nous choisissons d’utiliser une architecture
DNN inspirée par Krizhevsky et al. (2012), qui
obtient des résultats à la pointe sur le jeu de
données ImageNet (Russakovsky et al., 0000).
Nous modifions l’architecture pour qu’elle
accepte des images de dimension 4 × 60 × 60
et produise une couche de sortie comprenant
94 emplacements de classification, qui
correspondent à des coupes de redshift d’une
Nous choisissons d’utiliser une architecture
DNN qui s’inspire des travaux de Krizhevsky et
al. (2012) et obtenons des résultats à la pointe
sur le jeu de données ImageNet (Russakovsky et
al., 0000). Nous modifions l’architecture pour
qu’elle accepte des images de dimension
4×60×60 et produise une couche de sortie
comprenant 94 emplacements de classification,
correspondant chacun à des coupes de redshift
144
explored a limited range of DNN
architectures.
largeur de 0,01. Nous avons également exploré
un éventail restreint d'architectures DNNs.
d’une largeur de 0,01. Nous avons également
exploré un éventail restreint d'architectures
DNNs.
For example we find that using galaxy
images of dimensions 4×32×32 reduces the
performance by more than 30%, and
increasing the dropout fraction from 0.4 to
0.9 we find that a dropout fraction of 0.6
produces slightly higher accuracy on the
cross-validation. In future work we will
provide a more detailed analysis of the
effect of varying the hyper-parameter
choices for the DNN architecture.
Par exemple, nous notons que l'utilisation
d'images de galaxie de dimensions 4 × 32 × 32
réduit les performances de plus de 30 % et
augmente la fraction de dropout de 0,4 à 0,9.
Nous observons que grâce à la technique du
dropout, une fraction de 0,6 améliore
légèrement la précision lors de la validation
croisée. Dans nos futurs travaux, nous ferons
une analyse plus détaillée des effets de la
variation des options d’hyperparamètres de
l’architecture DNN.
Par exemple, nous notons que l'utilisation
d'images de galaxie de dimensions 4×32×32
réduit les performances de plus de 30 % et
augmente la fraction de dropout de 0,4 à 0,9.
Nous observons que grâce à la technique du
dropout, une fraction de 0,6 améliore légèrement
la précision lors de la validation croisée. Dans
nos futurs travaux, nous ferons une analyse plus
détaillée des effets de la variation des options
d’hyperparamètres de l’architecture DNN.
145
We describe the full DNN architecture in
more detail in the appendix but note here
that it contains some 23 layers. In this work
we use the package GraphLab (Low et al.,
0000) as the main tool for building and
training DNNs.
Nous décrivons l'architecture complète du
DNN plus en détail dans l'annexe, mais notons
ici qu'elle contient environ 23 couches. Pour ce
travail, nous utilisons le package GraphLab
(Low et al., 0000) comme principal outil de
construction et d’entraînement des DNNs.
Nous décrivons l'architecture complète du DNN
plus en détail dans l'annexe, mais notons ici
qu'elle contient environ 23 couches. Pour ce
travail, nous utilisons le package GraphLab
(Low et al., 0000) comme principal outil de
construction et d’entraînement des DNNs.
We show an illustration of the ImageNet
inspired DNN with Convolutional Neural
Network layers in the third row of Fig. 1
which is an altered version of an image
found on
http://deeplearning.net/tutorial/lenet.html.
The modified galaxy images (second row
panels) are passed into the ImageNet DNN
(third row) to predict the galaxy redshift bin
(final row) in a classification analysis. In
Une illustration du DNN et du réseau de
neurones convolutionnel, inspirée par
ImageNet apparaît à la troisième rangée de la
Fig. 1, il s’agit d’une version modifiée d'une
image trouvée sur
http://deeplearning.net/tutorial/lenet.html. Les
images de galaxie modifiées (images figurant
sur la deuxième rangée) sont transmises au
DNN ImageNet (troisième rangée) pour
prédire le redshift de la galaxie (dernière
Une illustration du DNN et du réseau de
neurones à convolution, inspirée par ImageNet
apparaît à la troisième ligne de la Fig. 1, il s’agit
d’une version modifiée d'une image trouvée sur
http://deeplearning.net/tutorial/lenet.html. Les
images de galaxie modifiées (images figurant
sur la deuxième ligne) sont transmises au DNN
ImageNet (troisième ligne) pour prédire le
groupement des données pour le redshift de
galaxies (dernière ligne) lors d’une analyse de
146
Fig. 2 we present the distributions of the
training and test data per redshift
classification bin.
rangée) lors d’une analyse de classification.
Dans la figure 2, nous présentons les
distributions des données d’entraînement et de
test pour chaque emplacement de redshift.
classification. Dans la figure 2, nous présentons
les distributions des données d’entraînement et
de test pour chaque emplacement de redshift.
[…] […]
3.2. Tree methods 3.2. Arbres de décision 3.2. Arbres de décision
Once a galaxy has been observed and its
photometric properties measured, it can be
placed along with other galaxies into a high
Lorsqu’une galaxie a été observée que ses
propriétés photométriques ont été mesurées,
elle peut être placée avec d’autres galaxies
Lorsqu’une galaxie a été observée et ses
caractéristiques photométriques mesurées, elle
peut être regroupée avec d’autres galaxies dans
147
dimensional scatter diagram in which each
dimension corresponds to a chosen input
feature. Decision trees are machine learning
architectures which subdivide this high
dimensional space into high dimensional
boxes.
dans un diagramme de dispersion haute
dimension où chaque dimension correspond à
une propriété d’entrée donnée. Les arbres de
décision sont des architectures d’apprentissage
automatique qui divisent cet espace haute
dimension en boîtes hautes dimensions.
un diagramme de dispersion haute dimension où
chaque dimension correspond à une
caractéristique d’entrée donnée. Les arbres de
décision sont des architectures d’apprentissage
automatique qui divisent cet espace haute
dimension en boîtes haute dimension.
Each new split, or box, is chosen during the
training phase to maximise the similarity of
the spectroscopic redshifts for all galaxies
which fall within the same box. Once the
space has been suitably subdivided the
training ends and each box is assigned a
redshift estimate which is the mean value of
all remaining galaxies within the box. Test
data is then placed into the high dimensional
space, and the machine learning redshift
Chaque boîte est choisie durant la phase
d’entraînement pour maximiser la similarité
des redshifts spectroscopiques entre les
galaxies réunies dans une même boîte. Une
fois l’espace correctement divisé, la phase
d’entraînement s’achève et une estimation de
redshift est assignée à chaque boîte, celle-ci
correspondant à la valeur moyenne de toutes
les galaxies restant dans la boîte. Les données
de test sont ensuite placées dans l’espace haute
Chaque boîte est choisie durant la phase
d’entraînement pour maximiser la similarité des
redshifts spectroscopiques des galaxies réunies
dans une même boîte. Une fois l’espace
correctement divisé, la phase d’entraînement
s’achève et une estimation de redshift est
assignée à chaque boîte, celle-ci correspondant
à la valeur moyenne de toutes les galaxies
restant dans la boîte. Les données de test sont
ensuite placées dans un espace haute dimension,
148
estimate is assigned to the test data from the
value of the hyperbox which contains it.
dimension, et l’estimation du redshift produite
par le DNN est attribuée aux données de test à
partir de la valeur de l’hyperboîte qui les
contient.
et l’estimation du redshift produite par le DNN
est attribuée aux données de test à partir de la
valeur de l’hyperboîte qui les contient.
One may think of each individual decision
tree, or configuration of hyper-boxes, as
learning a weak model, and the power of
tree based methods comes from combining
the results of many weak models to produce
a final model with strong predictive power
and a low chance of over fitting.
En somme, chaque arbre de décision et
configuration d’hyperboîte est entraînée sur un
modèle faible. Le pouvoir prédictif des
méthodes employant des arbres de décision
provient de la combinaison des résultats de
plusieurs modèles faibles et génère un modèle
final bénéficiant d’un fort pouvoir prédictif et
de faibles risques de sur-apprentissage.
En somme, chaque arbre de décision et
configuration d’hyperboîte est entraîné sur un
modèle faible. Le pouvoir prédictif des
méthodes employant des arbres de décision
provient de la combinaison des résultats de
plusieurs modèles faibles et génère un modèle
final bénéficiant d’un fort pouvoir prédictif et de
faibles risques de sur-apprentissage.
There exist many techniques to choose how
the individual trees should be grown, and
how the trees should be combined, one of
De nombreuses techniques sont dédiées aux
choix de construction des arbres et aux
différentes combinaisons : l’une d’entre elles
De nombreuses techniques sont dédiées aux
choix de construction des arbres et aux
différentes combinaisons : l’une d’entre elles se
149
which is called Adaptive boosting, or
AdaBoost (Freund and Schapire, 1997;
Drucker, 1997).
se nomme Adaptive boosting, ou AdaBoost
(Freund and Schapire, 1997; Drucker, 1997).
nomme Adaptive boosting, ou AdaBoost
(Freund and Schapire, 1997; Drucker, 1997).
[…] […]
In what follows we refer to this standard
machine learning architecture using the
magnitudes, colours and a r band Petrosian
radius as ‘AdaBoost’.
Dans les développements qui suivent, nous
appellerons « AdaBoost » notre architecture
standard d’apprentissage automatique
employant les magnitudes, les couleurs, et une
bande r de rayon pétrosien.
Dans les développements qui suivent, nous
appellerons « AdaBoost » notre architecture
standard d’apprentissage automatique
employant les magnitudes, les couleurs, et une
bande r de rayon pétrosien.
4. Results 4. Résultats 4. Résultats
We train both of the machine learning
architectures (hereafter MLA) on the same
sample of training galaxies, and determine
how well each MLA has been trained by
passing the cross-validation sample through
Nous entraînons les deux architectures
d'apprentissage automatique (que nous
appellerons dorénavant MLA) sur le même
échantillon de galaxies d’entraînement, et nous
déterminons le score de chaque MLA en
Nous entraînons les deux architectures
d'apprentissage automatique (que nous
appellerons dorénavant MLA) sur le même
échantillon de galaxies d’entraînement, et nous
déterminons le score de chaque MLA en passant
150
the learnt machine. For DNNs we use the
full galaxy image as an input, and for
AdaBoost we use the measured magnitudes,
colours and radii.
passant l’échantillon de validation croisée dans
la machine entraînée. Pour les DNNs, nous
utilisons l'image de la galaxie complète comme
entrée, et pour AdaBoost nous utilisons les
magnitudes, les couleurs et rayons pétrosiens
mesurés.
l’échantillon de validation croisée dans la
machine entraînée. Pour les DNNs, nous
utilisons l'image de la galaxie complète comme
entrée, et pour AdaBoost nous utilisons les
magnitudes, les couleurs et rayons pétrosiens
mesurés.
The output of AdaBoost is the real valued
number zML, that corresponds to the
photometric redshift. The output of the
DNN is the redshift bin that the classified
galaxy is most likely to have. The DNN
randomly extracts a sub image of size 4 ×
60 × 60 from the original image of size 4 ×
72 × 72 and therefore can produce a
AdaBoost produit en sortie la valeur réelle
« zML » correspondant au redshift
photométrique. Le DNN fournit en sortie
l’emplacement de redshift que la galaxie
classée et la plus susceptible de produire. Le
DNN extrait aléatoirement une sous-image de
dimension 4 × 60 × 60 à partir de l'image
originale de dimension 4 × 72 × 72 et peut donc
faire une prédiction de redshift différente pour
AdaBoost produit en sortie la valeur réelle
« zML » correspondant au redshift
photométrique. Le DNN fournit en sortie
l’emplacement de redshift que la galaxie classée
est la plus susceptible de produire. Le DNN
extrait aléatoirement une sous-image de
dimension 4 × 60 × 60 à partir de l'image
originale de dimension 4 × 72 × 72 et peut donc
faire une prédiction de redshift différente pour
151
different redshift prediction for each
random sampling of the same image.
chaque échantillonnage aléatoire de la même
image.
chaque échantillonnage aléatoire de la même
image.
We therefore pass each galaxy image into
the final DNN one hundred times to produce
a redshift classification distribution, which
we then convert to a redshift vector. We
calculate the mean and standard deviation
of this redshift vector and label the mean
redshift for this galaxy as zML. We note
that if we choose to use the median instead
of the
mean as the redshift estimate, the final
statistics vary very little.
Nous passons donc chaque image de galaxie
dans le dernier DNN cent fois, pour produire
une distribution de classification de redshift,
que nous convertissons ensuite en vecteur
redshift. Nous calculons la moyenne et l'écart-
type de ce vecteur de redshift et nous
étiquetons le redshift moyen pour cette galaxie
avec le marqueur zML. Nous remarquons que
si nous utilisons la médiane au lieu de la
moyenne pour l'estimation du redshift, les
statistiques finales varient très peu.
Nous passons donc chaque image de galaxie
dans le dernier DNN cent fois, pour produire une
distribution de classification de redshift, que
nous convertissons ensuite en vecteur redshift.
Nous calculons la moyenne et l'écart type de ce
vecteur de redshift et nous étiquetons le redshift
moyen de cette galaxie du marqueur zML. Nous
remarquons que si nous utilisons la médiane au
lieu de la moyenne pour l'estimation du redshift,
les statistiques finales varient très peu.
We construct the residual vector Δz = zML
− zspec which is the difference between the
Nous construisons le vecteur résiduel
Δ z = zML – zspec, soit la différence entre le
Nous construisons le vecteur résiduel
Δ z = zML – zspec, soit la différence entre le
152
machine learning redshift and the
spectroscopic redshift. We measure the
following metrics: μ, σ68, σ95,
corresponding to the median value of Δz ,
and the values corresponding to the 68%
and 95% spread of Δz . We additionally
measure the ‘outlier rate’ defined as fraction
of galaxies for which |Δz/(1+zspec )| > 0.15.
redshift estimé par l’apprentissage
automatique et le redshift spectroscopique.
Nous mesurons les paramètres suivants: μ,
σ68, σ95, qui correspondent à la valeur
médiane de ΔZ, et les valeurs correspondant à
la propagation de 68 % et 95 % de ΔZ. Nous
mesurons également le "taux d’anomalie"
défini comme la fraction de galaxies pour
lesquelles |Δz/(1+zspec )| > 0.15.
redshift estimé par l’apprentissage automatique
et le redshift spectroscopique. Nous mesurons
les paramètres suivants : μ, σ68, σ95, qui
correspondent à la valeur médiane de ΔZ, et les
valeurs correspondant à la propagation de 68 %
et 95 % de ΔZ. Nous mesurons également le
"taux d’anomalie" défini comme la fraction de
galaxies pour lesquelles |Δz/(1+zspec )| > 0.15.
If the residual distribution were described
well by a Gaussian distribution, the choice
of σ68 would correspond to the standard
deviation, and μ would be equivalent to the
mean. However most photometric redshift
residual distributions have longer tails and
Si la distribution résiduelle avait bien été
décrite par une distribution de type gaussien, le
choix de σ68 correspondrait à l'écart type, et μ
serait égal à la moyenne. Cependant, la plupart
des distributions résiduelles du redshift
photométrique présentent de plus longue
traînes et des sommets plus aigus qu’une
Si la distribution résiduelle avait bien été décrite
par une distribution de type gaussien, le choix de
σ68 correspondrait à l'écart type, et μ serait égal
à la moyenne. Cependant, la plupart des
distributions résiduelles du redshift
photométrique présentent de plus longues
traînes et des pics plus serrés qu’une distribution
153
are more peaked than a Gaussian
distribution and therefore the standard
deviation is not representative of the
dispersion of the data.
distribution de type gaussien, l'écart type n'est
donc pas représentatif de la dispersion des
données.
de type gaussien, l'écart type n'est donc pas
représentatif de la dispersion des données.
For AdaBoost we randomly explore the
hyper-parameter space 500 times and select
the trained machine with the lowest value of
σ68 as measured on the cross-validation set.
Similarly, we select the final DNN from the
handful of models that we explored, to be
the model with the lowest value of σ68 as
measured on the cross-validation set.
Pour AdaBoost, nous explorons 500 fois
aléatoirement l'espace d’hyperparamètres et
choisissons la machine entraînée dont la valeur
de σ68 mesurée sur le jeu de validation croisée
est la plus basse. De même, nous définissons
comme modèle final, le DNN - parmi les
quelques modèles que nous avons explorés –
dont la valeur de σ68 est la plus basse du jeu
de validation croisée.
Pour AdaBoost, nous explorons 500 fois
aléatoirement l'espace d’hyperparamètres et
choisissons la machine entraînée dont la valeur
mesurée sur le jeu de validation croisée est la
plus basse, soit σ68. De même, nous
sélectionnons, parmi les quelques modèles de
DNNs que nous avons explorés, celui dont la
valeur de σ68 est la plus basse de l’échantillon
de validation croisée.
After deciding upon a final model for both
MLAs we pass the sample of test galaxies,
Une fois la décision du modèle final prise pour
les deux MLAs, nous passons l'échantillon de
Une fois la décision du modèle final prise pour
les deux MLA, nous passons l'échantillon de
154
which is not used during training or model
selection phase, through each MLA to
obtain a final set of machine learning
photometric redshifts. This represents an
unbiased estimate of the ability of the
MLAs to produce redshift estimates for
other galaxies, however these galaxies must
be similar to, or representative of, the
training sample. We again construct the
residual redshift vector and measure the
same statistics as before.
galaxies test - qui n'est ni utilisé durant la phase
d’entraînement ni durant la phase de sélection
du modèle - dans chaque MLA, afin d’obtenir
un jeu final de redshifts photométriques par
apprentissage automatique. Ce que nous
obtenons est donc une estimation sans biais de
la capacité des MLAs à réaliser des estimations
de redshifts pour d'autres galaxies, cependant
ces galaxies doivent être semblables à celles de
l'échantillon d’entraînement. Nous
construisons de nouveau le vecteur résiduel de
redshift et nous mesurons les mêmes
statistiques qu'auparavant.
galaxies test – qui n'est ni utilisé durant la phase
d’entraînement ni durant la phase de sélection
du modèle – dans chaque MLA, afin d’obtenir
un jeu final de redshifts photométriques par
apprentissage automatique. Ce que nous
obtenons est donc une estimation sans biais de
la capacité des MLA à réaliser des estimations
de redshifts pour d'autres galaxies, cependant
ces galaxies doivent être semblables à celles de
l'échantillon d’entraînement. Nous construisons
de nouveau le vecteur résiduel de redshift et
nous mesurons les mêmes statistiques
qu'auparavant.
[…] […] […]
5. Discussion and conclusions 5. Discussion et conclusion 5. Discussion et conclusion
155
Robust photometric redshift estimates are a
critical component of maximising the
cosmological information content available
from current and future photometric galaxy
surveys.
Disposer d’estimations de redshifts
photométriques robustes est un élément
essentiel, qui permet de maximiser les données
cosmologiques disponibles grâce aux relevés
galactiques actuels et à venir.
Disposer d’estimations de redshifts
photométriques robustes est un élément
essentiel, qui permet de maximiser les données
cosmologiques disponibles grâce aux relevés
galactiques actuels et à venir.
Indeed, recent work (Rau et al., 2015) show
how the mis-estimation of the galaxy
redshift distribution for a sample of galaxies
produces biases in many correlation
function analyses, and other work
shows how these biases effect cosmology
(e.g., Bonnett et al., 0000).
De récents travaux (Rau et al., 2015)
démontrent qu’une mauvaise estimation de la
distribution du redshift d’une galaxie pour un
échantillon de galaxies engendre des
répercussions sur de nombreuses analyses de
fonctions de corrélation, et d’autres travaux
montrent les effets de ces biais sur la
cosmologie (p. ex. Parti et al., 0000).
Les travaux récents (Rau et al., 2015) montrent
qu’une mauvaise estimation de la distribution du
redshift pour un échantillon de galaxies induit
des biais sur de nombreuses analyses de
fonctions de corrélation, et d’autres travaux
montrent les effets de ces biais sur la cosmologie
(par ex. Parti et al., 0000).
Until now photometric redshifts have been
estimated by first extracting quantities from
Jusqu’à présent, pour estimer le redshift
photométriques, la première étape était
Jusqu’à présent, pour estimer le redshift
photométriques, les valeurs étaient extraites
156
the galaxy image which are deemed salient
by the user. The extracted quantities are
normally fluxes within a chosen aperture, or
radii describing some aspect of the
galaxy profile.
l’extraction de valeurs à partir d’image de
galaxies, en fonction de critères jugés
représentatifs par l’utilisateur. En règle
générale, les valeurs extraites sont des flux qui
dépendent de la taille de l’ouverture
photométrique choisie, ou des rayons formant
l’aspect du profil de la galaxie.
d’images de galaxies en fonction de critères
jugés représentatifs par l’utilisateur. En règle
générale, les valeurs extraites sont des flux qui
dépendent de la taille de l’ouverture
photométrique choisie, ou des rayons formant
l’aspect du profil de la galaxie.
The extracted quantities are then either
compared
to theoretical models of galaxy evolution,
for example when using template based
methods, or are used to learn the mapping
between the measured quantities and the
spectroscopic redshift for the
Concernant les quantités extraites, elles
peuvent servir : soit à faire une comparaison
avec les modèles théoriques de l’évolution des
galaxies, par exemple pour les méthodes
utilisant des modèles ; soit elles peuvent être
utilisées pour déduire la corrélation entre les
valeurs mesurées et le redshift
spectroscopique, pour un sous-jeu de données
dont les redshift sont connus, par exemple dans
Les quantités extraites peuvent soit être
comparées aux modèles théoriques de
l’évolution des galaxies, par exemple pour les
méthodes utilisant des modèles, soit être
utilisées pour déduire la relation entre les
valeurs mesurées et le redshift spectroscopique,
pour un sous-échantillon de données dont les
redshifts sont connus, par exemple en employant
157
subset of the data which already has
redshifts, for example when using standard
machine learning methods.
le cas de méthodes classiques d’apprentissage
automatique.
des méthodes classiques d’apprentissage
automatique.
In this work we propose a completely new
method to estimate photometric redshifts by
passing the full galaxy imaging into a Deep
Neural Network (DNNs). The main
advantage of this method is that the user
does not prejudice the choice of measured
properties extracted from the galaxy image
a priori.
Pour ce travail, nous proposons une méthode
totalement nouvelle d’estimation des redshifts
photométriques, qui consiste à passer l’image
de la galaxie complète dans un DNN. Le
principal avantage de cette méthode est que
l’utilisateur n’ajoute pas de biais durant la
phase de sélection des propriétés mesurées
extraites de l’image de galaxie a priori.
Pour ce travail, nous proposons une méthode
totalement nouvelle d’estimation des redshifts
photométriques, qui consiste à passer l’image de
la galaxie complète dans un DNN. Le principal
avantage de cette méthode est que l’utilisateur
ne porte pas préjudice à l’analyse durant la phase
de sélection des propriétés mesurées extraites de
l’image de galaxie a priori.
One can view this new approach as the most
extreme form of feature importance
possible (Hoyle et al., 2015). Feature
importance ranks the chosen properties (or
Cette approche pourrait être considérée
comme le cas le plus extrême de l’importance
des propriétés (Hoyle et al., 2015).
L’importance des propriétés classe les
Cette approche peut être considérée comme le
cas le plus extrême de classification des
éléments caractéristiques par ordre
d’importance (Hoyle et al., 2015). Cette
158
features) of the galaxy by their predictive
power for the task at hand. In this approach
features are not chosen a priori, but learnt
during training.
propriétés (ou les caractéristiques)
sélectionnées pour l’étude de la galaxie en
fonction de leur pouvoir prédictif pour la tâche
à accomplir. Dans notre approche, les
propriétés ne sont pas choisies a priori, mais
apprises durant la phase d’entraînement.
classification des caractéristiques de galaxies
s’effectue en fonction de leur pouvoir prédictif
pour la réalisation d’une tâche cible. Dans notre
approche, les caractéristiques ne sont pas
choisies a priori, mais apprises durant la phase
d’entraînement.
[…] […] […]
Astronomy and Computing 16 (2016) 34–40
Contents lists available at ScienceDirect
Astronomy and Computing
journal homepage: www.elsevier.com/locate/ascom
Full length article
Measuring photometric redshifts using galaxy images and DeepNeural NetworksB. HoyleUniversitaets-Sternwarte, Fakultaet fuer Physik, Ludwig-Maximilians Universitaet Muenchen, Scheinerstr. 1, D-81679, Muenchen, GermanyExcellence Cluster Universe, Boltzmannstr. 2, D-85748, Garching, Germany
a r t i c l e i n f o
Article history:Received 27 April 2015Accepted 30 March 2016Available online 26 April 2016
Keywords:AstronomyMachine learningCosmology
a b s t r a c t
We propose a newmethod to estimate the photometric redshift of galaxies by using the full galaxy imagein eachmeasured band. This method draws from the latest techniques and advances in machine learning,in particular Deep Neural Networks. We pass the entire multi-band galaxy image into the machinelearning architecture to obtain a redshift estimate that is competitive, in terms of the measured pointpredictionmetrics, with the best existing standardmachine learning techniques. The standard techniquesestimate redshifts using post-processed features, such as magnitudes and colours, which are extractedfrom the galaxy images and are deemed to be salient by the user. This newmethod removes the user fromthe photometric redshift estimation pipeline. However we do note that Deep Neural Networks requiremany orders of magnitude more computing resources than standard machine learning architectures,and as such are only tractable for making predictions on datasets of size ≤50k before implementingparallelisation techniques.
© 2016 Elsevier B.V. All rights reserved.
1. Introduction
To maximise the cosmological information available from cur-rent and upcoming large scale galaxy surveys, one requires robustdistance estimates to many galaxies. The distances to galaxies areinferred by the distance-redshift relation which relates how thegalaxy light is stretched due to the expansion of the Universe as ittravels from the galaxy to our detectors. This stretching leads to anenergy loss of the photon and a shift towards redder wavelengths,which is known as the redshift. The further away the galaxy is fromus, the longer the light has been passing through the expandingUniverse, and the more it becomes redshifted.
Obtaining very accurate spectroscopic redshifts, which mea-sures the redshifted spectral absorption and emission lines, re-quires very long exposure times on dedicated spectrographs andis typically only performed for a small sub-sample of all galaxies.Conversely, the measurement of multi-band photometric proper-ties of galaxies ismuch cheaper. The compromise is then to attemptto extract less accurate redshift information from photometricallymeasured properties, but applied to a much larger galaxy sample.
Photometric redshift estimates are obtained from eithertemplate fitting techniques, machine learning techniques, or some
E-mail addresses: [email protected], [email protected].
hybrid of the two for example using data augmentation (Hoyleet al., 2015). The template methods are parametric techniques andare constructed from templates of the Spectral Energy Distributionof the galaxies. Some templates encode our knowledge of stellarpopulation models which result in predictions for the evolutionof galaxy magnitudes and colours. The parametric encoding ofthe complex stellar physics coupled with the uncertainty ofthe parameters of the stellar population models, combine toproduce redshift estimates which are little better than manynon-parametric techniques. See e.g., Hildebrandt et al. (2010),Dahlen (2013) for an overview of different techniques. Unlike non-parametric and machine learning techniques, the aforementionedtemplate methods do not rely on training samples of galaxies,which must be assumed to be representative of the final sample ofgalaxies for which redshift estimates are required. Other templatemethods are generated either completely from, or in combinationwith, empirical data, however these templates both require tuning,and also rely upon representative training samples.
When an unbiased training sample is available, machinelearning methods offer an alternative to template methods toestimate galaxy redshifts. The ‘machine architecture’ determineshow to best manipulate the photometric galaxy input properties(or ‘features’) to produce amachine learning redshift. Themachineattempts to learn the most effective manipulations to minimisethe difference between the spectroscopic redshift and themachinelearning redshift of the training sample.
http://dx.doi.org/10.1016/j.ascom.2016.03.0062213-1337/© 2016 Elsevier B.V. All rights reserved.
B. Hoyle / Astronomy and Computing 16 (2016) 34–40 35
The field of machine learning for photometric redshift anal-ysis has been developing since Tagliaferri et al. (2003) used ar-tificial Neural Networks (aNNs). A plethora of machine learningarchitectures, including tree based methods, have been applied tothe problem of point prediction redshift estimation (Sánchez andPhotometric, 2014) or to estimate the full redshift probability dis-tribution function (Gerdes et al., 2010; Carrasco Kind and Brunner,2013; Bonnett, 2015; Rau et al., 2015). Machine learning architec-tures have also had success in other fields of astronomy such asgalaxymorphology identification, and star &quasar separation (La-hav, 1997; Yeche et al., 0000).
The use of Deep Neural Networks (hereafter DNN) as the ma-chine learning architecture has only recently been applied to prob-lems in astrophysics. For example Dieleman et al. (2015) taughta DNN to replicate the detailed morphological classifications ob-tained by the citizen scientists answering questions within theGalaxy Zoo 2 project (Willett et al., 2013) and obtained an accu-racy of up to 99% on some classification questions, and (Hála, 2014)examined the problem of spectral classification from Sloan DigitalSky Survey (Ahn et al., 2014) (hereafter SDSS) spectra.
Within the standard machine learning approach the choiceof which photometric input features to train the machinearchitecture, from the full list of possible photometric features, isstill left to the discretion of the user. The current author recentlyperformed an analysis of ‘feature importance’ for photometricredshifts, which uses machine learning techniques to determinewhich of themany possible photometric features produce themostpredictive power (Hoyle et al., 2015). The technique described inthis paper is the most extreme example of feature importancepossible.Weno longer need to impose our prior beliefs uponwhichderived photometric features produce the best redshift predictivepower, or even measure the photometric properties. By passingthe entire galaxy image into the Deep Neural Network machinelearning framework we completely remove the user from thephotometric redshift estimation process.
Furthermore in order to use either the template or standardma-chine learning techniques to estimate redshifts, the magnitudes,colours, and other properties of the galaxies must be measured.The analysis presented in this paper, which uses the full image ofthe galaxy partially removes this requirement. Howeverwe do stillcurrently need the galaxy to have been detected so that we cangenerate a postage stamp image.
The outline of the paper is as follows. In Section 2 we describethe galaxy images and the pre-processing steps to prepare theimages for the Deep Neural Networks. We then introduce bothof the machine learning architectures in Section 3, and presentthe analysis and results in Section 4. We conclude and discuss inSection 5.
2. Galaxy data and images
The galaxy data in this study are drawn from the SDSS Data Re-lease 10 (Ahn et al., 2014). The SDSS I–III uses a 2.4 m telescope atApache Point Observatory in New Mexico and has CCD wide fieldphotometry in 5 bands (Gunn et al., 2006; Smith et al., 2002), andan expansive spectroscopic follow up programme (Eisenstein andD.J., 2011) covering π steradians of the northern sky. The SDSS col-laboration has obtained 2 million galaxy spectra using dual fibre-fed spectrographs. An automated photometric pipeline performsobject classification to amagnitude of r ≈ 22 andmeasures photo-metric properties of more than 100 million galaxies. The completedata sample, and many derived catalogs such as the photometricproperties, and 5 band FITS images are publicly available throughthe SDSS website.1
1 sdss.org.
We obtain 64,647 sets of images from the SDSS servers fora random selection of galaxies which are chosen to pass thefollowing photometric selection criteria; the angular extent mustbe less than 30 arc seconds as measured by the ‘Exponential’ and‘de’ Vaucouleurs’ light profiles in the r band; and that each g, r, i, zhas magnitudes greater than 0. We further select galaxies whichpass the following spectroscopic selection criteria; the error on thespectroscopic redshift to be less than 0.1 and the spectroscopicredshift must be below 2. We check that none of the selectedgalaxies have imageswithmissing ormasked pixel values. In detailwe run the MySQL query as shown in the appendix in the CasJobsserver.
We choose to obtain the galaxy image FITS files in the follow-ing four photometric bands; g, r, i, z. This enables a closer resem-blance to the bands available in other photometric surveys, forexample the Dark Energy Survey (The Dark Energy Survey Collab-oration, 0000). Each pixel in the FITS file has a resolution of 0.396arc seconds and contains the measured flux which has been cor-rected for a range of observational and instrument effects such asflat fielding and sky subtraction, in order to be suitable for astro-nomical analysis. All pixel fluxes are converted to pixelmagnitudesfollowing Lupton et al. (1999). We apply a further extinction cor-rection to account for galactic dust using themaps of Schlegel et al.(1998) which is available from the photoObjAll table in the CasJobsserver. The extinction corrections are subtracted from the value ofmagnitude in each pixel in the corresponding FITS files. We chooseto use FITS images of size 72×72 pixels, corresponding to 28.5 arcseconds on a side.We have explored the use of other image dimen-sions (32×32) but donot find improvement in the obtained results.The chosen image size is motivated by, and closely follows earlierwork using SDSS images (Dieleman et al., 2015), and ensures thatthe training times are tractable.
In the top row of Fig. 1 we show RGB jpeg images of threeexample galaxies with the following mappings; g band magnitude→ R, r band magnitude → G, and the i band magnitude → B.All pixel magnitudes are further rescaled across the entire layerto be integers within the range 0 to 255 for viewing purposesonly. We further modify these base images to be more suitablefor photometric redshift analysis by producing pixel colours fromthe pixel magnitudes and map pixel colours to each RGB layerpixel. We map the pixel colours i–z to the R layer pixels, r–ito the G layer pixels, and g–r to the B layer pixels. Finally wepass the r band pixel magnitude into an additional Alpha layerto produce an RGBA image. The r band magnitude is often usedin this way to act as a pivot point which provides an overallnormalisation to the input data. This may be useful during trainingand is common practice in photometric redshift analysis usingneural networks (see e.g., Brescia et al., 2014). Examples of thesemodified images are shown in the second rowof Fig. 1, butwe showonly the RGB values for viewing purposes.
During the analysis we scale all of the images, such that themaximum pixel value of 255 corresponds to the largest valueacross all training and test images in each of the RGBA layersseparately. Likewise the minimum pixel value of 0 is set to be thesmallest value in each layer across all images.
For a comparisonwith standardmachine learning architectureswe obtain model magnitudes measured by the SDSS photometricpipeline for each of the galaxies. To produce a fair comparisonwith the image analysis, we choose to use the de-reddened modelmagnitudes in the g, r, i, z bands and the size of each galaxymeasured by the Petrosian radius in the r band.
We randomly shuffle and subdivide the 64,647 galaxies intotraining, cross-validation and test samples of size 33,167, 4047,and 27,433. In what follows we train the machine learningarchitectures on the training sample. We then vary the hyper-parameters of the machine learning architecture and retrain a
36 B. Hoyle / Astronomy and Computing 16 (2016) 34–40
Fig. 1. The experimental setup with the ImageNet inspired Deep Neural Network (DNN) with Convolutional layers. We convert the pixel fluxes (top images) to pixelmagnitudes and subtract magnitudes to make pixel colours. The following colours are placed into separate image layers, the i–z colour maps to the R layer pixels, r–i to theG layer pixels, and g–r to the B layer pixels. Finally we pass the r band pixel magnitude into an additional Alpha layer to produce the RGBA image, as seen in the second row.These images are passed into a DNN (illustrated by the third row) to predict the galaxy redshift (z) bin (bottom panel). Partial image credit in text.
Fig. 2. The redshift number distribution of training (thick blue line) and test (thinorange line) galaxies used in thiswork. The stepped lines represent the classificationbins which are of width 0.01. (For interpretation of the references to colour in thisfigure legend, the reader is referred to the web version of this article.)
new model. We select which is the best trained model using thecross-validation sample, which is completely independent fromthe training sample. After choosing a final model, we pass the testsample through the finalmodel to obtainmachine learning redshiftpredictions. These redshift distributions produce a fair estimate ofthe ability of themachine learning architecture to predict redshiftsfor other galaxies which are representative of the training sample.In Fig. 2we show the spectroscopic redshift number distribution oftraining (thick blue line) and test (thin orange line) galaxies used inthiswork. The stepped lines represent the classification binswhichhave a width of 0.01 in redshift.
3. Machine learning architectures
In this work we utilise the latest developments in the fieldof machine learning by using Deep Neural Networks (DNNs).In particular we pass the entire galaxy image into the DNN toobtain a redshift estimate. As a comparison method we use amachine learning framework called boosted trees which produce
the current state of the art photometric redshift estimates usingstandard photometric features. We describe both architectures inmore detail below.
3.1. Deep neural networks
Major advances in many areas of machine learning haverecently been produced using DNNs. DNNs are based on standardneural networks, which are themselves inspired by the learningconnections between biological neurons and synapses in thehumanbrain. Neural networks have input layers, hidden layers andoutput layers. For our purposes, the input layers are the real valuedphotometric feature vectors that are measured for each galaxy.The output layer is the real valued floating point prediction forthe redshift. The hidden layers are connected to the input layersand they combine and weight the input values to produce a newreal valued number, which is then passed to the output layer. Theweights of the connections between the layers are updated duringthe training phase in order tomake the output value for each galaxyas close as possible to the spectroscopic redshift for that galaxy.
DNNs depart from these simple neural networks by construct-ing many hidden layers, with many multiple connected neuronsper layer. DNNs can also accept images as input layers using anarchitecture called Convolutional Neural Networks (Lecun andBengio, 1995), instead of vectors of real valued numbers. The Con-volutional Neural Networks retain information about the physi-cal location of pixels with respect to other pixels and are usedefficiently in combination with the Max Out algorithm (Goodfel-low et al., 0000). The power of DNNs comes from recent advancesin how the connections between the many millions of neuronsare trained. Previously the many millions of connections wouldquickly overfit even large training sets, and thereby lose the DNNspredictive power. Onemajor advancement is theDropout (Hintonet al., 0000) technique, which ignores a random number of neu-rons during each training round. This effectively results in eachtraining round learning a ‘weak model’, which is then combined toproduce a final model with a lot of predictive power, and a lowerchance of overfitting. Weak models have low predictive power by
B. Hoyle / Astronomy and Computing 16 (2016) 34–40 37
themselves, however the predictions of many weak models can beweighted and combined to produce models with much strongerpredictive power.
To further ensure that the DNN does not overfit we apply dataaugmentation techniques to produce many training examples foreach of the original input images.We apply random image flippingand rotations, and randomly select a sub patch of size 60 × 60pixels to pass into the DNN. The image rotations are performedin discreet 90° intervals. We use these methods to increase thetraining sample size by a factor of 80. We do not currently applywhitening techniques to add noise to the images,which can furtherhelp with overfitting.
We choose to use a base DNN architecture inspired byKrizhevsky et al. (2012) that obtains state of the art results on theImageNet dataset (Russakovsky et al., 0000). We modify the baseDNN to accept images of dimension 4 × 60 × 60 and which pro-duces an output layerwith 94 classification bins,which correspondto redshift slices of width 0.01. We have also explored a limitedrange of DNN architectures. For example we find that using galaxyimages of dimensions 4×32×32 reduces the performance bymorethan 30%, and increasing the dropout fraction from 0.4 to 0.9 wefind that a dropout fraction of 0.6 produces slightly higher accuracyon the cross-validation. In future work we will provide a more de-tailed analysis of the effect of varying the hyper-parameter choicesfor the DNN architecture. We describe the full DNN architecture inmore detail in the appendix but note here that it contains some 23layers. In this workwe use the packageGraphLab (Low et al., 0000)as the main tool for building and training DNNs.
We show an illustration of the ImageNet inspired DNN withConvolutional Neural Network layers in the third row of Fig. 1which is an altered version of an image found on http://deeplearning.net/tutorial/lenet.html. The modified galaxy images(second row panels) are passed into the ImageNet DNN (third row)to predict the galaxy redshift bin (final row) in a classification anal-ysis. In Fig. 2 we present the distributions of the training and testdata per redshift classification bin.
3.2. Tree methods
Once a galaxy has been observed and its photometric propertiesmeasured, it can be placed along with other galaxies into a highdimensional scatter diagram inwhich each dimension correspondsto a chosen input feature. Decision trees are machine learningarchitectures which subdivide this high dimensional space intohigh dimensional boxes. Each new split, or box, is chosen duringthe training phase to maximise the similarity of the spectroscopicredshifts for all galaxies which fall within the same box. Once thespace has been suitably subdivided the training ends and eachbox is assigned a redshift estimate which is the mean value of allremaining galaxies within the box. Test data is then placed intothe high dimensional space, and the machine learning redshiftestimate is assigned to the test data from the value of the hyper-box which contains it.
Onemay think of each individual decision tree, or configurationof hyper-boxes, as learning a weak model, and the power of treebased methods comes from combining the results of many weakmodels to produce a final model with strong predictive power anda low chance of over fitting. There exist many techniques to choosehow the individual trees should be grown, and how the treesshould be combined, one of which is called Adaptive boosting, orAdaBoost (Freund and Schapire, 1997; Drucker, 1997). AdaBoosthas recently been shown to provide the most accurate galaxyredshift estimates when compared with many other machinelearning technologies (Hoyle et al., 2015). The power of AdaBoostis due to the algorithm preferentially attempting to learn a goodmodel, for those training examples with the worst performance
in the previous training round. We note that other boostingalgorithms exist, such as LogitBoost (Friedman et al., 2000), buthave not been widely adopted by the astrophysics community(however, see Zhang et al., 2011).
The hyper-parameters of the scikit-learn (Pedregosa et al.,2011) implementation of AdaBoost with regression trees are thenumber of trees combined to make the final model, the minimumnumber of training examples in the final hyper-boxes, the lossfunction, and the learning rate. We explore the full range ofloss functions and other hyper-parameters within the scikit-learnimplementation of AdaBoost. For more details on combiningtrees with AdaBoost and for further descriptions of the hyper-parameters, we refer the reader to Hastie et al. (2009). In whatfollows we refer to this standard machine learning architectureusing the magnitudes, colours and a r band Petrosian radius as‘AdaBoost’.
4. Results
We train both of the machine learning architectures (hereafterMLA) on the same sample of training galaxies, and determine howwell each MLA has been trained by passing the cross-validationsample through the learnt machine. For DNNs we use the fullgalaxy image as an input, and for AdaBoost we use the measuredmagnitudes, colours and radii. The output of AdaBoost is the realvalued number zML, that corresponds to the photometric redshift.The output of the DNN is the redshift bin that the classified galaxyis most likely to have. The DNN randomly extracts a sub imageof size 4 × 60 × 60 from the original image of size 4 × 72 ×
72 and therefore can produce a different redshift prediction foreach random sampling of the same image. We therefore pass eachgalaxy image into the final DNN one hundred times to producea redshift classification distribution, which we then convert to aredshift vector. We calculate the mean and standard deviation ofthis redshift vector and label the mean redshift for this galaxy aszML. We note that if we choose to use the median instead of themean as the redshift estimate, the final statistics vary very little.
We construct the residual vector ∆z = zML − zspec which is thedifference between the machine learning redshift and the spec-troscopic redshift. We measure the following metrics: µ, σ68, σ95,corresponding to the median value of ∆z , and the values corre-sponding to the 68% and 95% spread of ∆z . We additionally mea-sure the ‘outlier rate’ defined as fraction of galaxies for which|∆z/(1+ zspec)| > 0.15. If the residual distribution were describedwell by a Gaussian distribution, the choice of σ68 would corre-spond to the standard deviation, and µ would be equivalent to themean. However most photometric redshift residual distributionshave longer tails and are more peaked than a Gaussian distribu-tion and therefore the standard deviation is not representative ofthe dispersion of the data.
For AdaBoost we randomly explore the hyper-parameter space500 times and select the trained machine with the lowest valueof σ68 as measured on the cross-validation set. Similarly, we selectthe final DNN from the handful of models that we explored, to bethe model with the lowest value of σ68 as measured on the cross-validation set.
After deciding upon a final model for both MLAs we passthe sample of test galaxies, which is not used during trainingor model selection phase, through each MLA to obtain a finalset of machine learning photometric redshifts. This represents anunbiased estimate of the ability of the MLAs to produce redshiftestimates for other galaxies, however these galaxies must besimilar to, or representative of, the training sample. We againconstruct the residual redshift vector and measure the samestatistics as before.
Wepresent the results of theMLAs in Fig. 3. The toppanel showsa scatter plot of the DNN and AdaBoost redshift estimates against
38 B. Hoyle / Astronomy and Computing 16 (2016) 34–40
Fig. 3. The top panel shows the DNNs machine learning redshift estimate againstthe spectroscopic redshift by the orange circles, and the AdaBoostmachine learningredshift estimate by the blue stars. The bottom panel presents histograms of theredshift residuals for DNNs by the solid orange line, andAdaBoost by the blue dottedline. The dark grey solid line shows the line of equality in the top panel, and the linedescribed by ∆z = 0 in the bottom panel. (For interpretation of the references tocolour in this figure legend, the reader is referred to the web version of this article.)
Table 1The statistics measured on each of the best machine learning architectures (MLA)are shown in the column headings, and are measured on the redshift residualdistribution ∆z of the test galaxies, which are not used during training or modelselection.
MLA µ σ68 σ95 |∆z/(1 + zspec)| > 0.15
DNNs 0.00 0.030 0.10 1.71%AdaBoost −0.001 0.030 0.10 1.56%
the spectroscopic redshift for each galaxy. The bottompanel showshistograms of the redshift residuals. We present the results usingthe DNNs by the orange circles and solid lines, and the AdaBoostresults by the blue stars symbols and dotted lines. The dark greysolid line shows the line of equality in the top panel, and the linedescribed by ∆z = 0 in the bottom panel. We show the valuesof each of the measured statistics in Table 1. We highlight thatthe values of µ and σ68 for the DNNs are identical (to the quotedprecision) to those values obtained from AdaBoost. We find thatthe outlier fraction is larger by 10% for the DNNs (1.71%) comparedwith AdaBoost (1.52%).
5. Discussion and conclusions
Robust photometric redshift estimates are a critical componentof maximising the cosmological information content availablefrom current and future photometric galaxy surveys. Indeed,recent work (Rau et al., 2015) show how the mis-estimation ofthe galaxy redshift distribution for a sample of galaxies producesbiases in many correlation function analyses, and other workshows how these biases effect cosmology (e.g., Bonnett et al.,0000).
Until now photometric redshifts have been estimated by firstextracting quantities from the galaxy image which are deemedsalient by the user. The extracted quantities are normally fluxeswithin a chosen aperture, or radii describing some aspect of thegalaxy profile. The extracted quantities are then either comparedto theoretical models of galaxy evolution, for example when usingtemplate basedmethods, or are used to learn themapping betweenthe measured quantities and the spectroscopic redshift for thesubset of the data which already has redshifts, for example whenusing standard machine learning methods.
In this work we propose a completely new method to estimatephotometric redshifts by passing the full galaxy imaging intoa Deep Neural Network (DNNs). The main advantage of thismethod is that the user does not prejudice the choice of measuredproperties extracted from the galaxy image a priori. One can viewthis new approach as the most extreme form of feature importancepossible (Hoyle et al., 2015). Feature importance ranks the chosenproperties (or features) of the galaxy by their predictive power forthe task at hand. In this approach features are not chosen a priori,but learnt during training. One consequence of this additionalfreedom is the massive increase in computational cost involvedwith this type of analysis, comparedwith a standard analysis usingpredefined features. It is therefore necessary to train the DNNsusing codes optimised for GPUs, and such codes are becomingmore widespread and user friendly, see e.g. GrapLab,2 Keras,3 orpylearn2.4
We compare our results using DNNs with a standard machinelearning photometric redshift analysis using the machine learningalgorithm called AdaBoost (Freund and Schapire, 1997; Drucker,1997) and the following input features; the deredened modelmagnitudes g, r, i, z, colours derived from the magnitudes, andthe r band Petrosian radius. This standard machine learningarchitecture has recently been shown to produce state of the artphotometric redshift estimates (Hoyle et al., 2015). These choicesof input features are made for maximal comparison with othercurrent and future photometric surveys, for example the DarkEnergy Survey (The Dark Energy Survey Collaboration, 0000).
For the DNN analysis we obtain r, g, i, z FITS images which wepre-process to generate four layer RGBA images,with the followingmapping between layers and pixel colours and pixel magnitudes;the colours i–z → R layer, r–i → G layer and g–r → B layer.Finally we map the r band pixel magnitude into Alpha layer of theRGBA image to provide a pivot point. The layers are further scaledto have integer values between 0 and 255, over the entire datasample.
One future extension of this work is to explore more realisticeffects when using images with both artefacts and maskedpixels, potentially due to survey boundaries, cosmic rays, or poorobserving conditions. We find that none of the SDSS images usedin this analysis have these problems. When using DNNs it isimportant to perform image rescaling, such that range of values donot span orders of magnitudes. Artefacts and masked pixels willtherefore have to be dealt with carefully when they do occur.
We download the above photometric features and imagesfor 64,647 galaxies from the SDSS website. We divide this datainto a training, cross-validation and test sample of size 33,167,4047, and 27,433. We choose to build sample sizes which arerelatively small compared to the full SDSS spectral dataset becauseof the computational cost of obtaining images, training the DNNand obtaining predictions. Both the training and the prediction
2 dato.com.3 keras.io.4 deeplearning.net/software/pylearn2.
B. Hoyle / Astronomy and Computing 16 (2016) 34–40 39
phases of the DNN experiment require approximately 5 orders ormagnitude more computing resources than the standard analysis.This is a severe limitation of using the DNN method, especiallybecause the obtained predictions are comparable to those obtainedby the faster standard machine learning algorithms. Howeverdeep machine learning has made radical improvements andproduces state of the art predictions when applied to a variety oftasks. We therefore expect that as computing resources increase,and a more exhaustive search of hyper-parameter settings isperformed, the predictive power of DNNs may well improveover standard machine learning algorithms. Such alterations ofthe DNN architecture involve varying the number and shape ofthe convolutional neural network layers, the drop out fractionbetween the different layers, the number and size of the flattenedhidden layers and their activation functions, and the output layersfrom a binned classification analysis to a regression analysis. Onemay further extract the outputs of the final hidden layer and usethese as input features in a standard machine learning analysis.
In this work we explore a limited number of different DNNarchitectures to select a good fittingmodel.We leave a full analysisof DNN architectures to future work and refer to the appendix fora fuller description of the DNN architecture used in this work.
We construct the residual vector ∆z = zML − zspec which isthe difference between the machine learning photometric redshiftzML and the spectroscopic redshift. We measure the followingmetrics: µ, σ68, σ95, corresponding to the median value of ∆z , andthe values corresponding to the 68% and 95% spread of ∆z , andwe additionally measure the ‘outlier rate’ defined as fraction ofgalaxies for which |∆z/(1 + zspec)| > 0.15.
Other possible extensions to thiswork include the estimation offull galaxy redshift probability distribution functions (pdfs) insteadof redshift point predictions. A starting point for this work is tofollow that of Bonnett (2015), who estimates redshift distributionsfor galaxies using neural networks. We expect that the estimationof pdfswill furthermarginally increase the computation cost of theanalysis.
We note that the values of µ and σ68 for the DNNs (0.0, 0.03)are almost identical to those values obtained fromAdaBoost (0.001,0.03). We find that the outlier fraction is slightly larger by 10% forthe DNNs (1.71%) compared with AdaBoost (1.56%).
In future work we will extend this analysis to include moretraining and test galaxies from the SDSS andother datasets.Wewillalso begin to explore amuch larger range of DNNarchitectures, andother input image configurations.
Acknowledgements
I would like to thank Sander Deileman and Kerstin Peachfor useful discussions and Jochen Weller and Stella Seitz forproof reading and comments, and an anonymous referee whohas provided comments and feedback which have improved thequality and readability of the paper. The author declares nocompeting financial interests.
Appendix A. Deep neural network architecture
Inwhat followswe describe theDNNused in thiswork.Wenotethat this DNN is inspired by Krizhevsky et al. (2012) and furthermodified to suit both the input image shape choices and the outputredshift classifications binning.
First the images of size 72 × 72 × 4 are pre-processed toobtain pixel colours, which are mapped to the RGBA layers asdescribed in the data section. We then extract random contiguousimages of shape 60×60×4 from the pre-processed images. Theserandom images are passed into the first layer of the net whichis a Convolution Layer (denoted by C3,10) which itself applies a
learning smoothing filter of size 3 × 3 × 4 into a new pixel valuewhich is stored in new sub images in the next layer. Ten such subimages are generated in this way. The next layer is a RectifiedLinear Layer (R) which transforms all of the input values intooutput values using the function f (x) = max(0, x). These valuesare then transformed by aMaxPooling Layer (MP3) which is similarto the filtering in the C layer, but instead outputs the maximumvalue of the 3 × 3 filtered sub image into the next layer. The nextlayer is a Local Renormalisation Layer (RN5) which normalised theoutput values by the values coming from 5 neighbouring neurons.The subsequent Layers are C5,256 → R → MP3 → RN5 →
C3,384 → R → C3,384 → R → C3,256 → R,MP3, which is thenfollowed by a flattening layer which converts the Convolutionaltype layers into flat layers such as those found in standard neuralnetworks. The flattened layer is then followed by a Fully Connected(F4096) layer with 4096 neurons followed by R and then a DropoutLayer D0.6. The dropout layer transforms the incoming values byprobabilistically ignoring them during training, with a probabilityof 0.6. This Dropout layer is followed by F4096, R, F94 correspondingto the 94 redshift classes which are finally normalised andconverted into class probabilities using a Softmax layer.
Appendix B. MySQL data query
We select data from the SDSS CasJobs website by running thefollowing MySQL query in the Data Release 10 context:
select p.objid, s.specobjid, s.ra, s.dec,s.z as spec_z, s.zerr as err_spec_z,p.dered_u,p.dered_g,p.dered_r,p.dered_i,p.dered_z,p.PETRORAD_R,p.extinction_g, p.extinction_r,p.extinction_i,p.extinction_zinto mydb.DR10_DNNfrom Specobjall s join photoPrimary p on(s.bestobjid =p.objid)and p.deVRad_r >0 and p.deVRad_r<30 andp.dered_r>0 and p.dered_r < 22 ands.z>0 and s.z<2 ands.zerr>0 and s.zerr<0.1 andp.expRad_r>0 and p.expRad_r <30 and p.type=3
This results in 1,918,221 galaxies, of which we randomly select64,647 for use in this paper.
References
Ahn, C.P., Alexandroff, R., Allende Prieto, C., Anders, F., Anderson, S.F., Anderton, T.,Andrews, B.H., Aubourg, É, Bailey, S., Bastien, F.A., et al., 2014. The tenth datarelease of the sloan digital sky survey: First spectroscopic data from the SDSS-III apache point observatory galactic evolution experiment. Astrophys. J. Suppl.211, 17. doi:10.1088/0067-0049/211/2/17. arXiv:1307.7735.
Bonnett, C., 2015. Using neural networks to estimate redshift distributions.An application to CFHTLenS. Mon. Not. R. Astron. Soc. 449, 1043–1056.doi:10.1093/mnras/stv230. arXiv:1312.1287.
Bonnett, C., Troxel, M.A., Hartley, W., Amara, A., Leistedt, B., et al. 0000. Redshiftdistributions of galaxies in the DES Science Verification shear catalogue andimplications for weak lensing, ArXiv e-prints arXiv:1507.05909.
Brescia, M., Cavuoti, S., Longo, G., De Stefano, V., 2014. A catalogue ofphotometric redshifts for the SDSS-DR9 galaxies. Astron. Astrophys. 568, A126.doi:10.1051/0004-6361/201424383. arXiv:1407.2527.
Carrasco Kind, M., Brunner, R.J., 2013. TPZ: photometric redshift PDFs and ancillaryinformation by using prediction trees and random forests. Mon. Not. R. Astron.Soc. 432, 1483–1501. doi:10.1093/mnras/stt574. arXiv:1303.7269.
Dahlen, T.E.A., 2013. A critical assessment of photometric redshift methods: A CAN-DELS investigation. Astrophys. J. 775, 93. doi:10.1088/0004-637X/775/2/93.arXiv:1308.5353.
Dieleman, S., Willett, K.W., Dambre, J., 2015. Rotation-invariant convolutionalneural networks for galaxy morphology prediction. Mon. Not. R. Astron. Soc.450, 1441–1459. doi:10.1093/mnras/stv632. arXiv:1503.07077.
Drucker, H., 1997. Improving regressors using boosting techniques. In: Proceedingsof the Fourteenth International Conference on Machine Learning, ICML’97.Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, pp. 107–115. URLhttp://dl.acm.org/citation.cfm?id=645526.657132.
40 B. Hoyle / Astronomy and Computing 16 (2016) 34–40
The Dark Energy Survey Collaboration, 0000. The dark energy survey, ArXivAstrophysics e-prints arXiv:astro-ph/0510346.
EisensteinE.A., D.J., 2011. SDSS-III: Massive spectroscopic surveys of the distantuniverse, the milky way, and extra-solar planetary systems. Astron. J. 142, 72.doi:10.1088/0004-6256/142/3/72. arXiv:1101.1529.
Freund, Y., Schapire, R.E., 1997. A decision-theoretic generalization of on-linelearning and an application to boosting. J. Comput. System Sci. 55 (1), 119–139.doi:10.1006/jcss.1997.1504.URL http://www.sciencedirect.com/science/article/pii/S002200009791504X.
Friedman, J., Hastie, T., Tibshirani, R., 2000. Additive logistic regression: a statisticalview of boosting (with discussion and a rejoinder by the authors). Ann. Statist.28 (2), 337–407. doi:10.1214/aos/1016218223.
Gerdes, D.W., Sypniewski, A.J., McKay, T.A., Hao, J.,Weis,M.R.,Wechsler, R.H., Busha,M.T., 2010. ArborZ: Photometric redshifts using boosted decision trees. Astro-phys. J. 715, 823–832. doi:10.1088/0004-637X/715/2/823. arXiv:0908.4085.
Goodfellow, I.J., Warde-Farley, D., Mirza, M., Courville, A., Bengio, Y., 0000. Maxoutnetworks, ArXiv e-prints arXiv:1302.4389.
Gunn, J.E., Siegmund, W.A., Mannery, E.J., Owen, R.E., Hull, C.L., Leger, R.F., Carey,L.N., Knapp, G.R., York, D.G., Boroski,W.N., Kent, S.M., Lupton, R.H., Rockosi, C.M.,et al., 2006. The 2.5 m telescope of the sloan digital sky survey. Astron. J. 131,2332–2359. doi:10.1086/500975. arXiv:astro-ph/0602326.
Hastie, T., Tibshirani, R., Friedman, J., 2009. The Elements of Statistical Learning:Data Mining, Inference and Prediction, second ed.. Springer, URL http://www-stat.stanford.edu/~tibs/ElemStatLearn/.
Hildebrandt, H., Arnouts, S., Capak, P., Moustakas, L.A., Wolf, C., Abdalla, E.A.,2010. PHAT: photo-z accuracy testing. Astron. & Astrophys. 523, A31.doi:10.1051/0004-6361/201014885. arXiv:1008.0658.
Hinton, G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.R.,Improving neural networks by preventing co-adaptation of feature detectors,ArXiv e-prints arXiv:1207.0580.
Hála, P., 2014. Spectral classification using convolutional neural networks, ArXiv e-prints arXiv:1412.8341.
Hoyle, B., Rau,M.M., Bonnett, C., Seitz, S.,Weller, J., 2015. Data augmentation forma-chine learning redshifts applied to sloan digital sky survey galaxies. Mon. Not.R. Astron. Soc. 450, 305–316. doi:10.1093/mnras/stv599. arXiv:1501.06759.
Hoyle, B., Rau, M.M., Paech, K., Bonnett, C., Seitz, S., Weller, J., 2015. Anomalydetection for machine learning redshifts applied to SDSS galaxies. Mon. Not. R.Astron. Soc. 452, 4183–4194. doi:10.1093/mnras/stv1551. arXiv:1503.08214.
Hoyle, B., Rau, M.M., Zitlau, R., Seitz, S., Weller, J., 2015. Feature importance formachine learning redshifts applied to SDSS galaxies. Mon. Not. R. Astron. Soc.449, 1275–1283. doi:10.1093/mnras/stv373. arXiv:1410.4696.
Krizhevsky, A., Sutskever, I., Hinton, G.E., 2012. Imagenet classification with deepconvolutional neural networks. In: Pereira, F., Burges, C., Bottou, L., Wein-berger, K. (Eds.), Advances in Neural Information Processing Systems, vol. 25.Curran Associates, Inc., pp. 1097–1105. URL http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.
Lahav, O., 1997. Artificial neural networks as a tool for galaxy classification. In: DiGesu, V., Duff, M.J.B., Heck, A., Maccarone, M.C., Scarsi, L., Zimmerman, H.U.(Eds.), Data Analysis in Astronomy. pp. 43–51. arXiv:astro-ph/9612096.
Lecun, Y., Bengio, Y., 1995. Convolutional Networks for Images. In: Speech and TimeSeries, The MIT Press, pp. 255–258.
Low, Y., Gonzalez, J., Kyrola, A., Bickson, D., Guestrin, C., Hellerstein, J.M., 0000.GraphLab: A new framework for parallel machine learning, ArXiv e-printsarXiv:1006.4990.
Lupton, R.H., Gunn, J.E., Szalay, A.S., 1999. A modified magnitude system thatproduces well-behaved magnitudes, colors, and errors even for low signal-to-noise ratio measurements. Astron. J. 118, 1406–1410. doi:10.1086/301004.arXiv:astro-ph/9903081.
Pedregosa, F., et al., 2011. Scikit-learn: Machine learning in python. J. Mach. Learn.Res. 12, 2825–2830.
Rau, M.M., Seitz, S., Brimioulle, F., Frank, E., Friedrich, O., Gruen, D., Hoyle, B.,2015. Accurate photometric redshift probability density estimation - methodcomparison and application. Mon. Not. R. Astron. Soc. 452, 3710–3725.doi:10.1093/mnras/stv1567. arXiv:1503.08215.
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy,A., Khosla, A., Bernstein, M., Berg, A.C., Fei-Fei, L., 0000. ImageNet large scalevisual recognition challenge, ArXiv e-prints arXiv:1409.0575.
Schlegel, D.J., Finkbeiner, D.P., Davis, M., 1998. Maps of dust infrared emission foruse in estimation of reddening and cosmic microwave background radiationforegrounds. Astrophys. J. 500, 525–553. doi:10.1086/305772. arXiv:astro-ph/9710327.
Smith, J.A., et al., 2002. The u’g’r’i’z’ standard-star system. Astron. J. 123, 2121–2144.doi:10.1086/339311. arXiv:astro-ph/0201143.
SánchezE.A., C., 2014. Photometric redshift analysis in the Dark Energy Sur-vey Science Verification data. Mon. Not. R. Astron. Soc. 445, 1482–1506.doi:10.1093/mnras/stu1836. arXiv:1406.4407.
Tagliaferri, R., Longo, G., Andreon, S., Capozziello, S., Donalek, C., Giordano, G., 2003.Neural networks for photometric redshifts evaluation. LectureNotes in Comput.Sci. 2859, 226–234.http://dx.doi.org/10.1007/978-3-540-45216-4_26. arXiv:astro-ph/0203445.
Willett, K.W., Lintott, C.J., Bamford, S.P., Masters, K.L., et al., 2013. Galaxy zoo2: detailed morphological classifications for 304 122 galaxies from the sloandigital sky survey. Mon. Not. R. Astron. Soc. 435, 2835–2860.doi:10.1093/mnras/stt1458. arXiv:1308.3496.
Yeche, C., Petitjean, P., Rich, J., Aubourg, E., Busca, N., Hamilton, J., Le Goff, J., Paris, I.,Peirani, S., Pichon, C., Rollinde, E., Vargas-Magana, M., 0000. QSO selection andphotometric redshifts with neural networks,ArXiv e-prints arXiv:0910.3770.
Zhang, Y., Luo, A., Zhao, Y., 2011. Mining quasar candidates from large sky surveys5116–5124.
166
5.2 Traduction
Estimation du redshift photométrique par les réseaux de neurones appliqués au
traitement d’images de galaxies
B. Hoyle
Observatoire de Munich, Faculté de Physique, Université Louis-et-Maximilien de
Munich, Scheinerstr. 1, D-81679, Munich, Allemagne, Excellence Cluster Universe,
Boltzmannstr. 2, D-85748, Garching, Allemagne
RÉSUMÉ
Nous proposons une nouvelle méthode d’estimation du redshift photométrique qui utilise
l’image complète de la galaxie dans chaque bande spectrale mesurée. Cette méthode s’inspire
des dernières techniques et progrès de l'apprentissage automatique et plus particulièrement des
réseaux de neurones profonds (en anglais : Deep Neural Networks, DNNs). Nous appliquons
une image multibande de la galaxie complète en entrée de l’architecture d’apprentissage
automatique, afin d’obtenir une estimation du redshift dont la précision rivalise les meilleures
techniques classiques d'apprentissage automatique. Les techniques de calculs courantes du
redshift sont basées sur des caractéristiques de post-traitement extraites d’images de galaxies,
telles que les mesures de magnitude et les couleurs, qui sont considérées comme étant les plus
saillantes par l’utilisateur. Dans cette nouvelle méthode, l’utilisateur n’intervient pas dans le
pipeline de traitement des données utilisé. Cependant, nous constatons que les réseaux de
neurones profonds exigent des ressources informatiques d’un ordre de grandeur supérieur à
celles des architectures classiques d'apprentissage automatique. En tant que tels, ils peuvent
uniquement traiter et faire des prédictions sur des jeux de données d’une taille ≤ 50 k avant la
parallélisation.
1. Introduction
Pour maximiser les données cosmologiques disponibles grâce aux relevés galactiques à grande
échelle qui sont menés actuellement ou en projet, il faut disposer d’estimations de distance
fiables de nombreuses galaxies. Nous calculons la distance des galaxies grâce à la relation entre
la distance et le redshift, qui exprime l’augmentation de la longueur d'onde de la lumière émise
167
par les galaxies en raison de l'expansion de l'Univers, lorsque la lumière voyage de la galaxie
jusqu’à nos détecteurs. Cet étirement entraîne une perte d'énergie des photons et un décalage
vers les grandes longueurs d’onde, connu sous le nom de redshift (ou décalage vers le rouge).
Plus une galaxie est lointaine, plus la lumière qu’elle émet aura traversé l'univers en expansion
et se sera décalée vers le rouge.
La procédure permettant l’obtention de redshifts spectroscopiques très précis consiste à mesurer
le redshift de l’absorption spectrale et des raies d’émission. Elle nécessite des temps
d’exposition très longs sur des spectrographes spécifiques et ne s’effectue généralement que
sur un sous-échantillon réduit de toutes les galaxies. À l’inverse, la caractérisation
photométrique multibande des galaxies est moins coûteuse en temps de calcul. Le compromis
consiste alors à tenter d'extraire des mesures de redshift moins précises à partir des
caractéristiques photométriques d’un échantillon de galaxies beaucoup plus grand. Les
estimations de redshift photométrique peuvent être obtenues à partir de procédures d'ajustement
de modèles, de techniques d'apprentissage automatique ou d'une méthode hybride comprenant
ces deux méthodes, par exemple au moyen de l’augmentation de données (Hoyle et al., 2015).
Les méthodes utilisant des modèles sont des modèles paramétriques construits à partir de
modélisations de la distribution énergétique spectrale des galaxies. Certains modèles encodent
nos connaissances des modèles de population stellaire et permettent de prédire l'évolution des
magnitudes et des couleurs de galaxie. Le codage paramétrique de la physique stellaire
complexe associé à l'incertitude sur les paramètres des modèles de population stellaire induisent
des estimations de redshift qui ne sont guère meilleures que les mesures obtenues grâce aux
nombreuses autres techniques non-paramétriques. Voir par exemple Hildebrandt et al. (2010),
Dahlen (2013) pour un aperçu des différentes techniques. Contrairement aux techniques
d'apprentissage non paramétrique et d'apprentissage automatique, les méthodes utilisant des
modèles ne nécessitent pas d’entraînement à base d’échantillons, qui sont censés être
représentatifs des galaxies pour lesquelles des estimations de redshift sont requises. D'autres
méthodes utilisant des modèles sont générées soit indépendamment, soit en combinaison avec
des données empiriques. Cependant, ces deux modèles impliquent des réglages et dépendent
également d’échantillons d’entraînement représentatifs.
Lorsqu'un échantillon d’apprentissage sans biais est disponible pour l’entraînement, les
méthodes d'apprentissage automatique constituent une alternative aux approches utilisant des
modèles pour estimer le redshift. L'architecture machine optimise l’utilisation des
168
caractéristiques photométriques des galaxies fournies en entrée (que nous appellerons
dorénavant « caractéristiques »), pour obtenir, grâce à l’apprentissage automatique, une
estimation du redshift. La machine tente d'apprendre les manipulations optimales pour
minimiser la différence entre le redshift spectroscopique et le redshift d'apprentissage
automatique calculé sur l'échantillon d’entraînement.
Le domaine de l’apprentissage automatique pour l'analyse du redshift photométrique se
développe depuis l’utilisation des réseaux de neurones artificiels (aNNs) dans les travaux de
Tagliaferri et al. (2003). Une pléthore d'architectures d'apprentissage automatique, y compris
des méthodes employant des arbres de décision, a été appliquée au problème de l'estimation de
valeur ponctuelle du redshift (Sánchez and Photometric, 2014) ou pour estimer la fonction de
distribution en probabilité du redshift (Gerdes et al., 2010; Carrasco Kind and Brunner, 2013;
Bonnett, 2015; Rau et al., 2015). Les architectures d'apprentissage automatique ont également
fait leurs preuves dans d'autres domaines de l'astronomie tels que l'identification de la
morphologie des galaxies ou la séparation étoile-quasar (Lahav, 1997; Yeche et al., 2009).
Ce n’est que récemment que l'utilisation d’une architecture d'apprentissage automatique basée
sur les réseaux de neurones profonds (que nous appellerons dorénavant DNN : Deep Neural
Networks en anglais) a été appliquée aux problèmes d'astrophysique. Par exemple, Dieleman
et al. (2015) a entraîné les DNN à reproduire les classifications morphologiques détaillées
obtenues par les astronomes amateurs qui avaient répondu aux questions du projet Galaxy Zoo 2
(Willett et al., 2013). Cela a permis d'obtenir des mesures d’une précision allant jusqu'à 99 %
sur certaines questions de classification, et (Hála, 2014) a étudié la question de la classification
spectrale du Sloan Digital Sky Survey (Ahn et al., 2014) (ci-après SDSS). Dans l'approche
classique de l’apprentissage automatique, l’utilisateur sélectionne, parmi une liste de tous les
éléments d’entrée possibles, les caractéristiques photométriques qui seront utilisées pour
l’entraînement de l'architecture. L’auteur a récemment effectué un classement de
l’« importances des caractéristiques » les plus représentatives du redshift photométrique. Ainsi,
grâce aux techniques d'apprentissage automatique, il est possible, parmi différentes propriétés,
de déterminer celles dont le pouvoir prédictif est le plus élevé (Hoyle et al., 2015). Le modèle
que nous présentons est le cas le plus extrême de l’importance des propriétés. Il n’est plus
nécessaire de projeter des connaissances a priori pour postuler les propriétés photométriques
dérivées qui auront le meilleur pouvoir prédictif de redshift, ni même de mesurer les propriétés
photométriques.
169
Dans notre approche, en introduisant l’image complète de la galaxie dans l’architecture
d'apprentissage automatique (DNN) nous écartons complètement l'utilisateur du processus
d’estimation du redshift photométrique.
Par ailleurs, tant les méthodes utilisant des modèles que les techniques standard d'apprentissage
automatique d’estimation du redshift impliquent de mesurer les magnitudes, les couleurs et
d’autres propriétés des galaxies. L'analyse présentée dans cet article, qui utilise l'image
complète de la galaxie, supprime partiellement cette exigence. Cependant, nous avons à ce jour
toujours besoin de détecter les galaxies au préalable pour produire une image aux dimensions
d’un timbre-poste.
Le plan de notre article est le suivant : dans la section 2, nous décrivons les images de galaxies
et les étapes de prétraitement des données qui prépareront les images à l’entraînement par les
DNN. Nous présentons ensuite les deux architectures d'apprentissage automatique dans la
section 3. La section 4 comprend l'analyse et les résultats. Enfin, la section 5 inclut la conclusion
et la discussion.
2. Données de galaxies et images
Pour cette étude, les données de galaxie sont issues du SDSS Data Release 10 (Ahn et al., 2014).
Les trois premières générations du relevé (SDSS I–III) emploient un télescope de 2,5 m de
diamètre, situé à l'observatoire Apache Point du Nouveau-Mexique, dont le système
photométrique comprend des capteurs CCD (charge-couple device : dispositif à transfert de
charges) grand champ et un jeu de 5 filtres (Gunn et al., 2006; Smith et al., 2002). Les SDSS I-
III s’inscrivent dans un vaste programme de relevés spectroscopiques (Eisenstein et D.J., 2011)
couvrant π stéradians du ciel nord. La collaboration dans le cadre du SDSS a permis d’obtenir
deux millions de spectres de galaxies grâce à l’utilisation de spectrographes double-fibres. Un
pipeline photométrique automatisé effectue la classification d’objets jusqu’à une magnitude de
r ≈ 22 et mesure les propriétés photométriques de plus de 100 millions de galaxies. Tous les
échantillons de données et de nombreux catalogues dérivés, comme les caractéristiques
photométriques et les images 5 bandes FITS sont accessibles au public sur le site Web du
SDSS.1
Nous obtenons 64 647 séries d'images à partir des serveurs SDSS et de la sélection aléatoire de
galaxies selon les critères photométriques suivants : leur étendue angulaire doit être inférieure
170
à 30 secondes d’arc d’après les mesures des profils de brillance ‘exponentiel’ et ‘de
Vaucouleurs’ dans la bande r ; et chaque bande : g, r, i, z doit avoir une magnitude supérieure
à 0. Nous choisissons également les galaxies qui répondent aux critères de sélection
spectroscopiques suivants : l'erreur sur le redshift spectroscopique doit être inférieure à 0,1 et
le redshift spectroscopique doit être inférieur à 2. Nous vérifions qu'aucune des galaxies
sélectionnées ne comporte d’images dont les valeurs de pixels manquent ou sont masquées. En
détail, nous exécutons la requête MySQL comme indiqué dans l'annexe du serveur CasJobs.
Nous paramétrons l’obtention de fichiers d’images de galaxie FITS dans les quatre bandes
photométriques suivantes : g, r, i et z. Cela permet d’optimiser les similitudes avec les bandes
rendues disponibles par d'autres relevés photométriques, par exemple le Dark Energy Survey
(The Dark Energy Survey Collaboration, 0000). Chaque pixel du fichier FITS a une résolution
de 0,396 secondes d'arc et correspond à un flux mesuré auquel nous avons appliqué un certain
nombre de corrections des biais dus aux observations et aux instruments, comme la correction
de champ plat et la soustraction du fond du ciel, pour préparer les données à l'analyse. Tous les
flux de pixels sont convertis en magnitude de pixel en suivant Lupton et al. (1999). Nous
appliquons une nouvelle correction d'extinction pour éliminer la poussière galactique en
utilisant les cartes de Schlegel et al. (1998), qui sont disponibles dans le tableau photoObjAll
du serveur CasJobs. Ces corrections pour l’extinction sont soustraites de la valeur de magnitude
de chaque pixel dans les fichiers FITS correspondants. Nous choisissons d'utiliser des images
FITS d’une dimension de 72×72 pixels, soit 28,5 secondes d’arc de côté. Nous avons envisagé
l’utilisation d'autres dimensions d'image (32×32) mais les résultats obtenus ne présentent
aucune amélioration. La taille de l'image choisie est justifiée et suit de près les travaux
antérieurs utilisant les images du SDSS (Dieleman et al., 2015), ce qui garantit que les temps
d’entraînement peuvent être respectés.
Dans la ligne supérieure de la Fig. 1, figurent les images JPEG de trois exemples de galaxies
avec les mises en correspondance suivante pour les valeurs RVB : magnitude de la bande
g → R, magnitude de la bande r → V, et magnitude de la bande i → B. Afin de faciliter la
visualisation des résultats, toutes les magnitudes de pixels sont ensuite remises à l’échelle sur
l'ensemble du système photométrique et convertis en nombres entiers entre 0 et 255. En outre,
nous modifions ces images de base pour les rendre compatibles avec l'analyse du redshift
photométrique. Nous calculons l’indice de couleur des pixels à partir de leur valeur et nous
attribuons des couleurs à chacune des trois composantes RVB. Nous procédons ensuite à
l’appariement des couleurs de pixels i-z aux pixels de la couche R, r-I aux pixels de la couche
171
V, et g-r aux pixels de la couche B. Enfin, nous passons la bande R d'amplitude des pixels dans
une couche Alpha additionnelle pour produire une image RVBA. L'amplitude de la bande R est
souvent utilisée comme valeur de référence pour effectuer la normalisation globale des données
d'entrée. Cette pratique est courante dans l'analyse du redshift photométrique par des réseaux
de neurones (voir par exemple Brescia et al., 2014) et peut être utile durant l’entraînement. Des
exemples d’images modifiées figurent dans la deuxième ligne de la Figure 1 (à des fins de
visualisation nous présentons uniquement les valeurs RVB).
Pendant l'analyse, toutes les images sont redimensionnées pour que la valeur maximale de pixel
‘255’ corresponde à la plus grande valeur parmi toutes les images d’entraînement et de test, et
ce, dans chacune des couches RVBA. De même, nous attribuons une valeur minimale de pixel
‘0’ à chaque filtre et dans toutes les images.
Pour comparer notre méthode aux architectures d'apprentissage automatique standard, nous
déterminons les amplitudes modèles, qui sont mesurées par le pipeline photométrique SDSS
pour chacune des galaxies. Pour que la comparaison soit juste en regard de l'analyse de l'image,
nous choisissons d'utiliser des modèles redéfinis dont la couleur rouge a été soustraite des
bandes g, r, i, z et la taille de chaque galaxie mesurée par le rayon pétrosien dans la bande r.
Nous mélangeons aléatoirement les 64 647 galaxies que nous subdivisons en trois jeux de
données : 33 167 pour la phase d’apprentissage, 4 047 pour la phase de validation croisée et
27 433 pour la phase de test. Puis, nous entraînons le DNN avec le jeu de données
d’apprentissage. Nous choisissons ensuite de nouveaux hyperparamètres pour l’architecture
d’apprentissage automatique pour entraîner un nouvel échantillon.
Nous choisissons le modèle le mieux entraîné en utilisant l'échantillon de validation croisée,
qui demeure complètement indépendant de l'échantillon d’entraînement. Après avoir
sélectionné le modèle final, nous passons l'échantillon test à travers le modèle final afin
d’obtenir les prédictions du redshift grâce à l’apprentissage automatique. Ces distributions du
redshift permettent d’estimer le plus précisément possible la capacité de prédiction du redshift
par l'architecture d'apprentissage automatique appliquée à d'autres galaxies qui sont
représentatives de l'échantillon d’entraînement.
La figure 2 comprend la valeur de la distribution du redshift spectroscopique dans les phases
d’entraînement (ligne bleue épaisse) et de test (fine ligne orange) correspondant aux galaxies
étudiées dans ce travail. Les courbes en escalier représentent des emplacements de classification
d’une largeur de redshift de 0,01.
172
3. Architectures d'apprentissage automatique
Notre méthode est à la pointe de l'apprentissage automatique grâce à l’utilisation de DNNs.
Nous passons l'image de galaxie complète dans les DNNs afin d’obtenir une estimation de
redshift. Pour effectuer la comparaison, nous employons un système d'apprentissage
automatique appelé « boosted trees » (arbres de décision « boostés »), qui produit des
estimations de redshift photométrique reflétant l'état de l’art et emploie des caractéristiques
photométriques standard. Nous décrivons ces deux architectures plus en détail ci-dessous.
3.1. Réseaux de neurones profonds (DNNs)
Dans de nombreux domaines de l'apprentissage automatique, nous devons les progrès les plus
importants à l’utilisation des DNNs. L’architecture des DNNs est fondée sur celle des réseaux
de neurones classiques, qui sont eux-mêmes inspirés du fonctionnement des neurones et
synapses du cerveau humain. Les réseaux de neurones sont constitués de couches d’entrée, de
couches cachées et de couches de sortie. Dans notre modèle, les couches d’entrée sont les
valeurs réelles des vecteurs photométriques mesurés pour chaque galaxie. La couche de sortie
correspond à l’estimation de la valeur réelle du point flottant du redshift. Les couches cachées
sont connectées aux couches d'entrée : elles combinent et pondèrent les valeurs d'entrée pour
produire une nouvelle valeur réelle, qui est ensuite transmise à la couche de sortie. Les poids
qui relient les couches sont mis à jour durant la phase d’entraînement afin d’estimer, pour
chaque galaxie, la valeur de sortie la plus proche de son redshift spectroscopique.
Les réseaux de neurones profonds ont été créés sur la base des réseaux de neurones classiques,
mais de multiples couches cachées ont été ajoutées à leur architecture. Ainsi, pour chaque
couche, plusieurs neurones sont connectés. Les DNNs peuvent accepter des images dans la
couche d'entrée, en utilisant une architecture appelée réseau de neurones à convolution (ou
CNNs, Convolutional Neural Networks en anglais) (Lecun et Bengio, 1995), au lieu de vecteurs
de valeurs réelles. Les réseaux de neurones à convolution retiennent des informations sur
l'emplacement physique des pixels par rapport à d'autres pixels et sont employés de manière
efficace en combinaison avec l'algorithme Max Out (Goodfellow et al., 0000). Si les DNNs
sont si puissants, c’est grâce aux progrès récents concernant la manière dont s’effectue
l’entraînement entre les connexions des millions de neurones. Jusque-là, ces millions de
connexions pouvaient rapidement induire un sur-apprentissage sur de grands ensembles
d’entraînement, ce qui diminuait le pouvoir prédictif des DNNs. La technique Dropout (Hinton
et al., 0000) constitue une avancée majeure : à chaque série d’entraînement, elle permet de ne
173
pas tenir compte d’un nombre aléatoire de neurones. Ainsi, le DNN est entraîné sur un « modèle
faible » et sur plusieurs séries. Ces modèles faibles peuvent être combinés afin de produire un
modèle final possédant de bonnes capacités prédictives, ce qui permet de diminuer le
phénomène de sur-apprentissage. Certes, les modèles faibles ont une faible puissance
prédictive, mais les prédictions cumulées de plusieurs modèles faibles peuvent être pondérées
et combinées afin de produire des modèles disposant d’une meilleure puissance prédictive.
Pour éviter le phénomène de sur-apprentissage, nous appliquons des techniques d’augmentation
de données afin de produire, pour chacune des images originales d’entrée, de nombreux
exemples d’entraînement. Nous appliquons des retournements et des rotations aléatoires aux
images, en sélectionnant aléatoirement un sous-jeu de taille 60 × 60 pixels, que nous fournissons
en entrée aux DNNs. Les rotations d’images sont effectuées en intervalles discrets de 90°. Nous
utilisons ces méthodes pour augmenter la taille de l’échantillon d’entraînement d’un facteur de
80. Nous n’appliquons pas, pour le moment, de techniques de blanchiment de bruit, qui
pourraient par la suite diminuer le sur-apprentissage.
Nous choisissons d’utiliser une architecture DNN qui s’inspire des travaux de Krizhevsky et al.
(2012) et obtenons des résultats à la pointe sur le jeu de données ImageNet (Russakovsky et al.,
0000). Nous modifions l’architecture pour qu’elle accepte des images de dimension 4×60×60
et produise une couche de sortie comprenant 94 emplacements de classification, correspondant
chacun à des coupes de redshift d’une largeur de 0,01. Nous avons également exploré un
éventail restreint d'architectures DNNs. Par exemple, nous notons que l'utilisation d'images de
galaxie de dimensions 4×32×32 réduit les performances de plus de 30 % et augmente la fraction
de dropout de 0,4 à 0,9. Nous observons que grâce à la technique du dropout, une fraction de
0,6 améliore légèrement la précision lors de la validation croisée. Dans nos futurs travaux, nous
ferons une analyse plus détaillée des effets de la variation des options d’hyperparamètres de
l’architecture DNN. Nous décrivons l'architecture complète du DNN plus en détail dans
l'annexe, mais notons ici qu'elle contient environ 23 couches. Pour ce travail, nous utilisons le
package GraphLab (Low et al., 0000) comme principal outil de construction et d’entraînement
des DNNs.
Une illustration du DNN et du réseau de neurones à convolution, inspirée par ImageNet apparaît
à la troisième ligne de la Fig. 1, il s’agit d’une version modifiée d'une image trouvée sur
http://deeplearning.net/tutorial/lenet.html. Les images de galaxie modifiées (images figurant
sur la deuxième ligne) sont transmises au DNN ImageNet (troisième ligne) pour prédire le
174
groupement des données pour le redshift de galaxies (dernière ligne) lors d’une analyse de
classification. Dans la figure 2, nous présentons les distributions des données d’entraînement et
de test pour chaque emplacement de redshift.
[…]
3.2. Arbres de décision
Lorsqu’une galaxie a été observée et ses caractéristiques photométriques mesurées, elle peut
être regroupée avec d’autres galaxies dans un diagramme de dispersion haute dimension où
chaque dimension correspond à une caractéristique d’entrée donnée. Les arbres de décision sont
des architectures d’apprentissage automatique qui divisent cet espace haute dimension en boîtes
haute dimension. Chaque boîte est choisie durant la phase d’entraînement pour maximiser la
similarité des redshifts spectroscopiques des galaxies réunies dans une même boîte. Une fois
l’espace correctement divisé, la phase d’entraînement s’achève et une estimation de redshift est
assignée à chaque boîte, celle-ci correspondant à la valeur moyenne de toutes les galaxies
restant dans la boîte. Les données de test sont ensuite placées dans un espace haute dimension,
et l’estimation du redshift produite par le DNN est attribuée aux données de test à partir de la
valeur de l’hyperboîte qui les contient.
En somme, chaque arbre de décision et configuration d’hyperboîte est entraîné sur un modèle
faible. Le pouvoir prédictif des méthodes employant des arbres de décision provient de la
combinaison des résultats de plusieurs modèles faibles et génère un modèle final bénéficiant
d’un fort pouvoir prédictif et de faibles risques de sur-apprentissage. De nombreuses techniques
sont dédiées aux choix de construction des arbres et aux différentes combinaisons : l’une d’entre
elles se nomme Adaptive boosting, ou AdaBoost (Freund and Schapire, 1997; Drucker, 1997).
[…]
Dans les développements qui suivent, nous appellerons « AdaBoost » notre architecture
standard d’apprentissage automatique employant les magnitudes, les couleurs, et une bande r
de rayon pétrosien.
4. Résultats
Nous entraînons les deux architectures d'apprentissage automatique (que nous appellerons
dorénavant MLA) sur le même échantillon de galaxies d’entraînement, et nous déterminons le
175
score de chaque MLA en passant l’échantillon de validation croisée dans la machine entraînée.
Pour les DNNs, nous utilisons l'image de la galaxie complète comme entrée, et pour AdaBoost
nous utilisons les magnitudes, les couleurs et rayons pétrosiens mesurés. AdaBoost produit en
sortie la valeur réelle « zML » correspondant au redshift photométrique. Le DNN fournit en
sortie l’emplacement de redshift que la galaxie classée est la plus susceptible de produire. Le
DNN extrait aléatoirement une sous-image de dimension 4 × 60 × 60 à partir de l'image
originale de dimension 4 × 72 × 72 et peut donc faire une prédiction de redshift différente pour
chaque échantillonnage aléatoire de la même image. Nous passons donc chaque image de
galaxie dans le dernier DNN cent fois, pour produire une distribution de classification de
redshift, que nous convertissons ensuite en vecteur redshift. Nous calculons la moyenne et
l'écart type de ce vecteur de redshift et nous étiquetons le redshift moyen de cette galaxie du
marqueur zML. Nous remarquons que si nous utilisons la médiane au lieu de la moyenne pour
l'estimation du redshift, les statistiques finales varient très peu.
Nous construisons le vecteur résiduel Δ z = zML – zspec, soit la différence entre le redshift
estimé par l’apprentissage automatique et le redshift spectroscopique. Nous mesurons les
paramètres suivants : μ, σ68, σ95, qui correspondent à la valeur médiane de ΔZ, et les valeurs
correspondant à la propagation de 68 % et 95 % de ΔZ. Nous mesurons également le "taux
d’anomalie" défini comme la fraction de galaxies pour lesquelles |Δz/(1+zspec )| > 0.15. Si la
distribution résiduelle avait bien été décrite par une distribution de type gaussien, le choix de
σ68 correspondrait à l'écart type, et μ serait égal à la moyenne. Cependant, la plupart des
distributions résiduelles du redshift photométrique présentent de plus longues traînes et des pics
plus serrés qu’une distribution de type gaussien, l'écart type n'est donc pas représentatif de la
dispersion des données.
Pour AdaBoost, nous explorons 500 fois aléatoirement l'espace d’hyperparamètres et
choisissons la machine entraînée dont la valeur mesurée sur le jeu de validation croisée est la
plus basse, soit σ68. De même, nous sélectionnons, parmi les quelques modèles de DNNs que
nous avons explorés, celui dont la valeur de σ68 est la plus basse de l’échantillon de validation
croisée.
Une fois la décision du modèle final prise pour les deux MLA, nous passons l'échantillon de
galaxies test – qui n'est ni utilisé durant la phase d’entraînement ni durant la phase de sélection
du modèle – dans chaque MLA, afin d’obtenir un jeu final de redshifts photométriques par
apprentissage automatique. Ce que nous obtenons est donc une estimation sans biais de la
176
capacité des MLA à réaliser des estimations de redshifts pour d'autres galaxies, cependant ces
galaxies doivent être semblables à celles de l'échantillon d’entraînement. Nous construisons de
nouveau le vecteur résiduel de redshift et nous mesurons les mêmes statistiques qu'auparavant.
[…]
5. Discussion et conclusion
Disposer d’estimations de redshifts photométriques robustes est un élément essentiel, qui
permet de maximiser les données cosmologiques disponibles grâce aux relevés galactiques
actuels et à venir. Les travaux récents (Rau et al., 2015) montrent qu’une mauvaise estimation
de la distribution du redshift pour un échantillon de galaxies induit des biais sur de nombreuses
analyses de fonctions de corrélation, et d’autres travaux montrent les effets de ces biais sur la
cosmologie (par ex. Parti et al., 0000).
Jusqu’à présent, pour estimer le redshift photométriques, les valeurs étaient extraites d’images
de galaxies en fonction de critères jugés représentatifs par l’utilisateur. En règle générale, les
valeurs extraites sont des flux qui dépendent de la taille de l’ouverture photométrique choisie,
ou des rayons formant l’aspect du profil de la galaxie. Les quantités extraites peuvent soit être
comparées aux modèles théoriques de l’évolution des galaxies, par exemple pour les méthodes
utilisant des modèles, soit être utilisées pour déduire la relation entre les valeurs mesurées et le
redshift spectroscopique, pour un sous-échantillon de données dont les redshifts sont connus,
par exemple en employant des méthodes classiques d’apprentissage automatique.
Pour ce travail, nous proposons une méthode totalement nouvelle d’estimation des redshifts
photométriques, qui consiste à passer l’image de la galaxie complète dans un DNN. Le principal
avantage de cette méthode est que l’utilisateur ne porte pas préjudice à l’analyse durant la phase
de sélection des propriétés mesurées extraites de l’image de galaxie a priori. Cette approche
peut être considérée comme le cas le plus extrême de classification des éléments
caractéristiques par ordre d’importance (Hoyle et al., 2015). Cette classification des
caractéristiques de galaxies s’effectue en fonction de leur pouvoir prédictif pour la réalisation
d’une tâche cible. Dans notre approche, les caractéristiques ne sont pas choisies a priori, mais
apprises durant la phase d’entraînement.
[…]
177
5.3 Fiche WordSketch du terme redsfhit
Figure 22 – Fiche WordSketch du terme redshift
178
5.3.1 V + beyond the scope of this + N
179
5.3.2 For + N + the reader is referred to + N
180
(Cette page est laissée blanche intentionnellement)
Deep Learning for Photo-Z estimation
cosmology
observational cosmology
computing
machine learning
deep learning
physical cosmology
astrophysics
survey
infrared astronomy
astronomy
galaxy
galaxy group galaxy cluster
gravitationally
bound objects
scale
<50 >50
supercluster
galaxy filaments
supercluster complexes
galaxy walls galaxy sheets
studies
photo-z
template
fitting
machine
learning
techniquesdata
augmentation
hybrid method
redshift survey
stellar population ...
spectral energy
distribution
templates
templates
galaxy data
galaxy images
photometric galaxy features
deep learning architectures
classifiers
parameters
weight hyperparameter
models
artificial neural networks decision trees
boosted treesdeep neural
networks
optimisation
gradient
descentoverfitting
predictive
power
LEGEND
subject
term
technique
method
holonym of
employs
hyperonym of
studies
estimation
pipeline
data preconditionning
training phase testing phase validation phase
temporal
magnitudes
colours
photometric
pipeline
applications
computer vision
image acquisition
preprocessing
feature extraction high-level processing
measures
feature importance
photo-z
estimation
results in
learning algorithm training sample
template
fitting
machine
learning
techniques
internal nodes
attributes
decision node chance node end node
is a function of
backpropagation algorithm
photometry
electromagnetic spectrum of an
object
passband filter
multi-band
photometric pipeline
182
(Cette page est laissée blanche intentionnellement)
183
5.3.4 Glossaire et fiches courtes
Terme anglais Terme français algorithm Algorithme angular extent étendue angulaire artificial neural network réseau de neurones artificiels astronomical data données astronomiques astronomy astronomie astrostatistics astrostatistiques backpropagation algorithm rétropropagation du gradient Bayesian approach approche bayésienne bin classe binning groupement des données par classe blueshift décalage vers le bleu box boîte branch branche charge coupled device dispositif à transfert de charge child node noeud enfant classification classification classifier classifieur colour couleur computing informatique convolution convolution convolutional neural network réseau de neurones à convolution cosmography cosmographie curse of dimensionality fléau de la dimensionnalité data augmentation augmentation des données data set jeu de données De Vaucouleurs De Vaucouleurs decision tree arbre de décision deep learning apprentissage profond deep neural network réseau de neurones profonds empirical method méthode empirique exponential exponentiel feature caractéristique feedforward neural network réseau neuronal sans rétroaction filter filtre filter bank banc de filtres flat fielding correction de champ plats fully-connected entièrement connecté galactic extinction extinction galactique galaxy data donnée de galaxie galaxy image image de galaxie hidden layer couche cachée
184
high dimensional box boîte haute dimension high-dimensional data donnée haute dimension hyperbox hyperboîte image acquisition acquisition d'image image processing traitement d'image input data donnée d'entrée input layer couche d'entrée interstellar absorption absorption interstellaire interstellar extinction extinction interstellaire leaf feuille leaf node noeud de feuille learning algorithm algorithme d'apprentissage light profiles profils de brillance linear transformation transformation linéaire machine learning apprentissage automatique machine learning models modèle d'apprentissage automatique magnitude magnitude mean deviation écart moyen method méthode neural network architecture architecture de réseau de neurones node noeud non-linear transformation transformation non-linéaire observational cosmology cosmologie observationnelle observational effects correction correction d'effets observationnels optical spectrum spectre optique optimisation algorithm algorithme d'optimisation outlier observation aberrante outlier rate valeur aberrante output layer couche de sortie performance performance phenomenon phénomène photometer photomètre photometric band bande photométrique photometric redshift redshift photométrique photometric redshift measurement mesure du redshift photométrique photometric residual distribution distribution des résidus photométriques photometric survey relevé photométrique photometric system système photométrique photometry photométrie photon energy loss perte énergétique des photons predictive power pouvoir prédictif radii rayons random forest forêt d'arbres décisionnels receptive field champ récepteur redshift redshift redshift measurement method méthode de mesure du redshift redshift survey relevé de redshift
185
reference frame cadre de référence reinforcement learning apprentissage par renforcement residual vector vecteur résiduel root node noeud racine sibling child node noeud-frère sky subtraction soustraction du ciel spatial pooling pooling spatial spectral band bande spectrale spectral break rupture spectrale spectral feature caractéristique spectrale multi-band multibande spectral template modèle spectral spectroscopic redshift redshift spectroscopique spectroscopic survey relevé spectroscopique standard deviation écart type statistical tool outil statistique stochastic gradient descent algorithm algorithme de descente de gradient
stochastique supervised learning apprentissage supervisé survey relevé task tâche telescope télescope template fitting technique technique d'ajustement de modèles template method méthode utilisant des modèles training algorithm alorithme d'entraînement training data set jeu de données d'entraînement training rounds phases d'entraînement transfer learning apprentissage par transfert unsupervised learning apprentissage non supervisé wavelength longueur d'onde
186
5.3.5 Mails échangés avec l’auteur
187
Hi Julia,
Answers in line. I'm glad to hear you are making progress.
1) In the introduction:
"Some templates encode our knowledge of stellar population models which result in predictions for the evolution of galaxy magnitudes and colours"
-> Does the term "stellar population models" refer to "Stellar Population Synthesis Models" or does it refer to another concept?
Yes you are right. Sorry for my sloppy english!
-> Do "colours" refer more specifically to the "colour index"?
Now, I mean colours of galaxies, for example we observe galaxies in photometric bands, g,r.i.z and I make colors, which are the difference between two bands, g-r.
2) In section 2 Galaxy data and images:
"we choose to use the de-reddened model magnitudes in the g, r, i, z bands"
-> Does the verb "de-redden" mean you use the magnitudes of models in which the color red has been deleted? Or is "model magnitudes" a specific term?
this means that the magnitudes have been corrected for "galactic extinction". This is caused by the dust in our galaxy, and makes galaxies appear less bright (at bluer wavelenghts) than they actually are. We need to correct for this effect, so we get the true color or magnitude of the galaxy.
3) Throughout the text, I understand that the terms "features" and "properties" are synonyms that refer to the internal representation of the data generated by the machine learning model: DNNs extract features|properties and identify those with the best predictive power, in combination with attributes or other features (here, standard magnitudes, colours and r band Petrosian radii). Is this correct?
yes, that's sort of right. I would say properties are measured quantities of a galaxy. Features can be both these measure properties, and also the representations of the galaxy that the DEEP NN might extract.
188
4) "We then vary the hyperparameters of the machine learning architecture and retrain a new model"
"In future work we will provide a more detailed analysis of the effect of varying the hyper-parameter choices for the DNN architecture"
-> Concerning the verb "to vary", as it sometimes has a specific technical meaning in context, I would like to clarify if this is a part of "feature selection" that means "to select another variable/hyper-parameter", or if it means "to change the values of the hyper-parameters"?
It means "to select another variable/hyper-parameter" and see how it peforms, and then to "to select another variable/hyper-parameter" again ...
5) Concerning the term "photometric redshift", I have found the abbreviation "photo-z" in my corpus and they seem to be synonyms that can be used in the same way, or do you use them differently?
Correct they are exact synonyms. you may also see p(z) and z-phot, z_phot, phot_z
I will keep you posted on the advances of my work.