23
Journées informatiques de l’IN2P3, Cargèse 23 Juillet 2001 Automatisation du traitement de données dans SNIFS Cécile AUFRANC, Service informatique, Institut de Physique Nucléaire de Lyon

Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

J ournées informatiquesde l’IN2P3, Cargèse

23 Juillet 2001

Automatisation dutraitement dedonnées dans

SNIFSCécile AUFRANC,Service informatique,

Institut de Physique Nucléaire de Lyon

Page 2: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 2

Plan de la présentation� Introduction

�Nécessité d’automatiser le traitementdes données

�Principe de l’automatisation

�Optimisation du stockage des données

�Traitement des données

�Tests

�Conclusion

Page 3: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 3

SNIFS : observation de Supernovae de type Ia

� explosion thermonucléaired’une naine blanche, dans unsystème binaire, accrétant lamatière de son compagnon� événement très brillant ~ 10milliards de fois la luminosité dusoleil� événement bref ~ 40 jours� événement rare ~ 1 galaxie parmillénaire

Qu’est-ce qu’une Supernovae de type Ia?

SNIFS : observation de 400 supernovae de type Ia en 3 ans

Page 4: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 4

� amélioration de la précision surle calcul des paramètrescosmologiques� vérification du caractèrestandard des Supernovae de type Ia(entre autres, explication desdifférences entre les spectres dedeux Supernovae différentes)

SupernovaeSupernovae : chandelles standards très utiles pour la mesure de distances et de paramètres cosmologiques pour un modèle d’univers donné

SNIFS : observation de Supernovae de type Ia

Objectifs scientifiques de SNIFS :

Page 5: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 5

La collaboration SNfactory� Recherche de Supernovae, sous la responsabilité de Berkeley� Identification, suivi photométrique et spectroscopique de Supernovae :l’instrument SNIFS sur UH2.2m, Centre de recherche Astronomique de Lyonet Institut de Physique Nucléaire de Lyon (construction et réduction dedonnées)

� Analyse physique : Berkeley, CRAL, IPNL, LPNHE (Paris 6)

Mauna Kea(4200 m),Hawaii,

Page 6: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 6

SNIFS : 2 voies spectroscopiques, 1 voie photométrique

Page 7: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 7

2) Nécessitéd’automatiser letraitement des

données

Page 8: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 8

SNIFS est un spectrographe intégral de champ : très utilisé pourl’observation d’objets étendus car observation simultanéeen trois dimensions (2 dimensions spatiales, 1 dimension spectrale)

SNIFS : SuperNovae Field Integral Spectrometer

Éclatement du champ par une tramede micro-lentilles puis dispersion(chaque lentille concentre le faisceaupour gagner de la place sur ledétecteur / légère rotation de latrame afin d’éviter lechevauchement des spectres)

Réduction de données très complexe

Page 9: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 9

Illustration de la complexité de la réduction spectrale

Spectre initial : nombreuxtraitements à effectuer pouratteindre le spectre final ci-contre

Page 10: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 10

Exemple de chaînede traitement d’un

spectrographeintégral de champ

8 étapes de traitement : réduction longue et complexe!!!

1 x parconfig

1

29 30 31 32 33

37

2 4 8 13 1834

35

36

27

28

2737 38 39 40

5 9 191441

29

42 43 44 45

6 10 2015

4647 48 4930

11 2116

50 51 52

44 2245

53

4342

54 55

38

41

57 5856

3259 60

23

2-Creation du masque

d’extraction1-Prétraitement des images CCD brutes

3-Extraction du spectre

4-Calibration en longueur d’onde

5-Calibration en gain

6-Elimination des cosmiques

7-Soustraction du fond du ciel

8- Calibration en flux

1 x par config

1 x par configet par étoile

31

1 3 7 12 17

24

31

47

11

LégendeFichier identifié par sa fclassModule Oasis

1 x par configet par étoile

SUPERNOVAEBiais

CielLumièreblancheLampe

Spectre de laSUPERNOVAE

Or SNIFS = 3 voies de trai--tement d’où NECESSITE:1) de sélectionnerautomatiquement lesfichiers/modules2) de paralléliser les

traitements

Page 11: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 11

Description des données

Volume important de données : NECESSITE D’AUTOMATISERLE STOCKAGE et ce, de façon optimale pour permettre unenchaînement efficace des traitements

� Données brutes : 53700 fichiers de 32 Mo, 1.72 To de données� Données prétraitées : 51000 fichiers de 32 Mo, 1.63 To de données� Données réduites : 100000 fichiers de 2.4 Mo environ, 320 Go dedonnées

+ relance de traitements : estimation de 100000 fichiers supplémentaires, rajoutant 0.5 To

Nombre total de fichiers : 300000Volume total : 4.2 To

Page 12: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 12

Principe

� Acquisition des données (CRAL)� Mini-chaîne de traitement : vérification que

-les données sont exploitables-la cible observée est une supernovae

Stockage:- des fichiers- d’informations techniques sur les fichiers dans une base de données

Automatisation de la réduction de données :utilisation d’une base de données

Hawaii

Transfert via ftp ou bbftp

Centre decalcul del’IN2P3

Stockage optimal

Gestion autonome de la chaîne de traitement

Page 13: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 13

Optimisation du stockage des données

� Données brutes (50000 fichiers de 32 Mo): stockage sous HPSSétant donné la taille et le nombre de fichiers-stockage transparent pour l’utilisateur, mais avantage, les donnéesissues d’une même nuit seront regroupées sur une même cassette-l’arborescence des fichiers aura pour sommet trois grands types defichiers, chacun d’entre eux possèdera 400 sous-répertoirescorrespondants aux 400 nuits d’observation�Données prétraitées (100000 fichiers de 32 Mo en comptant leretraitement) : stockage probable sous HPSS mais l’organisationdes données sera différente à cause du retraitement� Données réduites (150000 fichiers de 2.4 Mo en comptant leretraitement, fréquemment accédés par des modules de tempsd’exécution courts) : stockage sur disque

Page 14: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 14

5) Traitement desdonnées

Page 15: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 15

3 objectifs principaux pour l’automatisation de la chaîne detraitement de SNIFS:

� La réduction de données des 3 voies en parallèle +fusion des données à certaines étapes

� La relance automatique et optimale de la chaîne lorsde la modification d’un fichier ou d’un module

� La chaîne doit pouvoir fonctionner en mode manuel et/ouautomatique

Cahier des charges de la chaîne detraitement

Page 16: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 16

Stratégie adoptée(1)

35

3 5 6

15 17

module

fichiersd’entrée

fichiersde sortie

Noyau de base : Permet l’auto-organisation de lachaîne : les fichiers de sortie du modulesont les fichiers d’entrée d’un autremodule

� permet de créer toutes les chaînes detraitements possibles

� permet le rajout / la suppressionaisée de modules dans la chaîne detraitement

Le mode de communication entre traitements s’effectue par fichier.

fournit un haut niveau de parallélisme

Page 17: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 17

Stratégie adoptée(2)

� Auto-déclencheur : la détection dans la base de nouveauxfichiers / modules déclenche l’exécution des traitements sil’ensemble des fichiers d’entrée nécessaires sont présents

� Reprise de traitement : détection dans la base de données detoutes les modifications de fichiers ou de modules : permet derelancer l’auto-déclencheur

Principe

Page 18: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 18

� 1° jeu de tables : une table définissant les modules, une autretable définissant l’historique du traitement

� 2° jeu de tables : les tables contenant des informations sur cesfichiers (informations techniques et physiques)

Réalisationpratique

gestion automatique de la chaîne grâceà l’utilisation d’une base de données

permet la définition de la chaîne de traitement / l’enchaînement des étapes

permet de trouver les fichiers à utiliser/ de vérifier la validité de ces fichiers

Page 19: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

Schéma représentatif du 2° jeu de tables de labase de donnéescenter

name

storage

address

contact

ActiveNon_activeRemovedExpected

DOMAINCONSTRAINT

PRIMARY KEY

CONSTRAINT

files_type

name

description

files

files_id

files_size

name

type

checksum

original_name

creation_time

user_create

db_create_time

user_modify

db_create

modify_time

localization

files_id

storage

center

validity

path

date_storage

telescope

name

secondary_diameter

primary_diameter

latitude

longitude

instrument

name

nb_channel

description

detector

detector_id

instrument

name

channel

telescope

filter

name

band

type

spectral_response

target

name

declinaison

ascension

equinox

coord_system

users

name

email

laboratory

role

phone

permission

Bias

filter

files_id

standard

target

airmass?

files_idfits

files_id

fits_type

detector_id

kind

fclass

date_taking

Ident on kind&frame

Ident on type

frame

Imoy

Imax

Imin

illum_area

overscan

Sigma_Imoy

files_id

fits_type

name

description

kind

name

description

fclass

name

description

science

target

airmass

files_id

type

Informations techniques Informations sur le contenu des fichiers

Page 20: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 20

� La base de données utilisée est Oracle (backup assuréau CCIN2P3)

� Les programmes permettant l’interface avec la base et lesystème BQS (Batch Queuing System) du Centre deCalcul où les modules s’exécuteront, seront écrits en Cet contiendront du SQL embarqué

Implémentation

Page 21: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

11/07/01 Automatisation du traitement de données dans SNIFS 21

6) Conclusion

Page 22: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables

Planning

Stockage autom. avecdonnées Paris 6

20022001

Installation + mise enplace à Hawaii

Dvlpt interface utilisateur

Mini-chaîne de contrôle àHawaii

Dévlpt : autom. chaînetraitement

Design : autom. de lachaîne de traitement

Stockage autom. avecdonnées issues de 33{télescopes, instruments}différents

Développement de la basede données

2003Juin Février

Réunions Snfactory:25Juin

10/11Déc.

Page 23: Automatisation du traitement de données dans · ı1° jeu de tables : une table définissant les modules, une autre table définissant l’historique du traitement ı2° jeu de tables