Download pdf - DENIS MATH ON · connectés au papilla mammae par un simple canal primaire. La structure du canal comprend deux types cellulaires: la couche de cellules épithéliales internes et

DENIS MATH ON

COMPARAISON DES APPROCHES BIO-INFORMATIQUES UTILISÉES DANS L' ANALYSE DE LA RÉGULATION DU TRANSCRIPTOME DE LA GLANDE

MAMMAIRE DE SOURIS

Mémoire présenté à la Faculté des études supérieures de l'Université Laval

dans le cadre du programme de maîtrise en physiologie et endocrinologie pour l'obtention du grade de maître ès sciences (M.Sc)

© Denis Mathon, 2008

F ACUL TÉ DE MÉDECINE UNIVERSITÉ LA V AL

QUÉBEC

2008

11

RÉSUMÉ

Différentes stratégies permettent de tirer des conclusions à partir des données générées par

des biopuces d'ADN dans l'étude de la dynamique de l'estradiol (E2) sur le transcriptome

de la glande mammaire de souris vierges. Nous avons retenu 2 stratégies soit effectuer un

classement des processus cellulaires des gènes régulés et tirer profit des courbes de

régulation en fonction du temps. Nous avons de plus, utilisé 2 méthodes de normalisation

des données (MAS5.0 et RMA) afin d'évaluer leurs similitudes et leurs disparités, ce qui a

permis d'aller vers une meilleure compréhension de leurs impacts sur les résultats obtenus.

Par l'observation des patrons d' expression suite à l'action de l'E2, les similarités entre

MAS5.0 et RMA sont correctes. Cependant, c'est lorsque l'écart entre les intensités du

traitement et du contrôle est faible que les dissemblances sont les plus manifestes c' est-à

dire là où discriminer entre la variabilité biologique et technique est la moins évidente.

~--------------~- ._------------- ~------

111

ABSTRACT

Different strategies may be used to draw conclusions from the data generated by DNA

microarrays in our study of the effect of estradiol (E2) on the transcriptome of the

mammary gland of mice. We selected two strategies the first one involving a classification

by cellular pro cess of regulated genes and the second one taking advantage of gene

expression profile over a time course of treatment. We also used two standardization

methods, MAS5.0 and RMA, in order to assess their similarities and differences leading us

to a better understanding of their impact on the results. In comparing expression patterns of

regulated genes by E2, we observed that there are good similarities between gene

expression profiles obtained by MAS5.0 and RMA. However, when the ratio between

signal intensities of treatment and control is low, differences between data normalized by

MAS 5.0 and RMA are more apparent i.e where the discrimination between biological and

technical variability is the least obvious.

-- ------------------------------------------------------------------------------------~

IV

REMERCIEMENTS

Je voudrais d'abord remercier le Dr. Fernand Labrie, directeur du centre de recherche du

CHUL, pour m'avoir engagé en 2003 lors d ' un stage de fin de Baccalauréat en biologie

médicale. Ceci m'a permis de connaître le Dr. Jacques Simard, qui allait devenir mon

directeur de maîtrise. À mon arrivée, j'entendis aussitôt parler de lui comme d'un

chercheur très critique à l'égard du travail d'autrui, qu ' il n'acceptait pas n ' importe quel

travail venant de ses étudiants. Ils ont oublié de mentionner qu'il faisait passer les intérêts

de ses étudiants avant son profit personnel, ce qui en fait un modèle pour construire des

directeurs d ' études graduées.

Je voudrais remercier le mathématicien Pascal Belleau pour les nombreuses et intéressantes

conversations sur les statistiques appliquées aux biopuces ainsi qu'Astrid Deschênes pour

m'avoir écrit un programme que j'utilise encore souvent, et qui me sauve des jours de

travail à chaque utilisation.

Je voudrais remercier les responsables des plateformes de biopuces et de PCR quantitatif,

Ezéquiel Calvo et Nathalie Paquet respectivement, pour m'avoir donné toutes les

informations et les données nécessaires à mon travail.

Un petit quelque chose pour souligner l'importance des femmes en milieu de recherche.

Un grand merci à Martine Dumont, professionnelle de recherche et bras droit de Jacques

Simard, pour m'avoir fait bénéficier de sa grande expertise en matière de critique de

publications, pour ses commentaires, ses conseils et ses corrections apportées à ce

mémoire. Non seulement elle a fait preuve de professionnaliste que l'on souhaite d'une

professionnelle de recherche, mais pour avoir mis du cœur à ce mémoire autant que si cet

ouvrage avait été le sien. Un merci à Céline Martel pour m'avoir donné, à plusieurs

reprises, toutes les informations nécessaires sur les protocoles de souris et de tissus qu'elle

connaît comme le fond de sa poche.

Aux personnes de mon entourage intime, j'écris que les silences sont les meillleurs pour

tout dire et cacher des trésors.

v

AVANT-PROPOS

Ce mémoire est présenté à la Faculté des études supérieures de l'Université Laval

dans le cadre du programme de maîtrise en physiologie et endocrinologie

pour l'obtention du grade de maître ès sciences (M.Sc). Ce mémoire est le fruit d'un projet

qui s' inscrit dans le cadre du programme de recherche A.T.L.A.S., financé par Génome

Canada et Génome Québec, visant à créer un atlas des profils génomiques de l ' action de

plusieurs stéroïdes dans différents tissus chez la souris afin d' identifier les changements

dans l'expression des gènes induits par ces stéroïdes. Il présente, plus spécifiquement, les

résultats obtenus, par la technique d'hybridation de biopuces d'oligonucléotides, de

l'expression des gènes régulés par l' estradiol dans la glande mammaire de souris. Ces

résultats sont précédés d'une introduction et suivis d'une conclusion générale.

L'introduction présente une brève description de la morphologie et du développement de la

glande mammaire de souris, du rôle et de l'action des estrogènes et de leurs récepteurs. Par

la suite sont abordés les différents types de biopuces et les algorithmes de normalisation.

Le chapitre 1 de ce mémoire porte sur la comparaison des méthodes de normalisation MAS

5.0 et RMA, et présente les profils d'expression des gènes régulés par la 17~-estradiol (E2)

en fonction du temps de traitement.

Finalement, la conclusion porte sur les retombées et la continuité futures de cette étude.

VI

TABLE DES MATIÈRES

RÉSUMÉ 11

ABSTRACT 111

REMERCIEMENTS _________________________________________________________________________________________________ _____ __ ___ __ _ IV

A V ANT -PROPOS. ________________________________________________________________________________________________________ ___ ___ __ _ V

TABLE DES MATIÈRES _____________________________________________ _______________________________ ________________________ _ VI

LISTE DES TABLEAUX _____________________________________________________________________________________________________ VUI

LISTE DES FIGURES.__________________________________________________________________________________________________________ ix

LISTE DES ABRÉVIATIONS_____________________________________________________________________________________________ x

INTRODUCTION _____________________________________________________________________________________________________ ____________ _

1. Structure de la glande mammaire, mécanisme d'action et complexité de la

régulation génique par la 17~-estradiol (E2} __________________________________________ _______________ .

2. Les biopuces.___________________________________________________________________________________________________________ 7

2.1 Aspects techniques et dynamiques de l 'hybridation des sondes____________ 8

2.1.1 Quelques difficultés inhérentes à l'utilisation des biopuces_______ 10

2.2 Étapes de transformation des données_____________________________________________________ 12

2.3 Algorithmes de normalisation (modèles linéaire et logarithmique }______ 13

2.3.1 Modèle d' Affymetrix______________________________________________________________________ 13

2.3.2 Modèle dCHIP______________________________________________________________ _______________ ____ 15

2.3.3 Modèle Robust Multichip Analysis (RMA) __________________________________ 15

2.3.4 Modèle GCRMA 16

2.3.5 Modèle Positional-Dependant-Nearest-Neighbor (PDNN)__________ 16

2.3.6 Modèle Probe Logarithmic Intensity Error estimation (PLIER)_ 16

2.4 Avantages et inconvénients des procédures de normalisation_______________ 17

3. Définition du problème et approches expérimentales___________________________________________ 20

3.1 Problématique____________________________________________________________________________________________ 20

3.2 Approches expérimentales________________________________________________________________________ 22

CHAPITRE 1 Profils d'expression des gènes régulés par E2 dans la glande mammaire

de souris au moyen de biopuces d' oligonucléotides___________________________________ 25

1.1 Matériels et Méthodes__________________________________________________________ _______ ______ __ ___ ___ 25

VIl

1.2 Résultats____________________________ ______________ _______ _________________ ______ _________ ___ ____ ___ _____ _____ 28

1.2.1 Sélection des gènes différentiellement exprimés__________ __ ____ ___ ___ ____ 28

1.2.1.1 Par les méthodes de normalisation MAS 5.0 et RMA ___ 28

1.2.1.2 Concordance des profils d' expression_________ __ ______________ ___ 30

1.2.2 Comparaison des méthodes de normalisation MAS 5.0 et RMA_ 33

1.2.3 Classification des gènes selon les profils d' expression______ ___ ___ ___ __ 35

1.2.4 Classification des gènes par processus biologiques.___ ____ ___ __ ___ ___ ___ _ 42

1.3 Discussion_____ ___ __ __ __ ____ ______ __ _____ ___ _____ ____ _________________ _________ _________ __ __ ____ ____________ 50

CONCLUSION 57 ----- --- --_ .. _-------------- --- --- -- -_ .......... _- _ ..... _-_ .. _-- ----- -- _ .. . .. -- ------- -------- -- -- -- -- ----_ .. _--- -_ ... ---_ ... - - _ ..... - -- _ .....

RÉFÉRENCES _____ ____ ______ ______ ____ __ __ ____ ___ _______ ___ ------- ------------------ ------- ---------------------- -- -- ---- ----- ----- - 59

VI11

LISTE DES TABLEAUX

CHAPITRE 1

Tableau 1 Matrice des moyennes géométriques des coéfficients de regression linéaires

des dro i tes. _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 35

Tableau 2 Classification par profil d ' expression des 138 gènes confirmés par

qRT_PCR----------------- ---------------------- ---- ---- __ ___ _______ ___________ _________ __ __________ __ ________ ________ _ .39

Tableau 3 Classification des gènes par processus biologiques selon Gene Ontology en

fonction du "z score" et du temps de traitement. _________ _____ __ ______________ __ __________ _____ __ 45

IX

LISTE DES FIGURES

INTRODUCTION

Figure 1

Figure 2

Figure 3

Différenciation ductale et lobulo-alvéolaire de la glande mammaire durant

les quatre principaux stades de développemen(__________ __ ____________ ______ ___ __ _________ __ _ 2

Complexité de la régulation des gènes par l 'E2.__________________ _______ ___________ ____ ____ ___ 6

Disposition d'un ensemble de sondes par rapport à la séquence de réference

ciblée 9

Figure 4 Types d' ensembles de sondes et spécificité de chacune _________________ _______ ___ __ _____ 10

CHAPITRE 1

Figure 5 Exemple de la répartition des intensités brutes des produits de la transcription

sur une biopuce (temps de traitement à 3 hrs) par rapport aux intensités brutes

de ces mêmes produits de la transcription sur une biopuce contrôle selon le

Figure 6

Figure 7

Figure 8

Figure 9

classement des signaux présents (A) ou absents (B} _______________________________________ . 29

Graphique représentant des exemples de concordance entre les méthodes____ 32

Régulation comparée entre les méthodes MAS 5.0, RMA et qRT_PCR.--- -- -- 34

Profils d'expression des gènes régulés par E2_________________________________________ ___ __ ____ 37

Représentation du Tableau 2 montrant les proportions entre les valeurs de

"z score" pour chaque processus cellulaire______________________________________________________ _ 44

LISTE DES ABRÉVIATIONS

Abréviations

A A ADNc AP-l AR ARN* ARNc ARNm AvDiff C DHEA E2 EGFR ER ERE Eq. Erk EIS HER2 HRE HSP G GADPH GCRMA GO GPR30 NSB Log2 MAPK MAS 5.0 MM p300 PCR PDNN PLIER PM pM PR qRT_PCR Ras RMA SERMs STAT

Définitions

Adénosine Angstrom Acide désoxyribonucléique complémentaire Activator protein 1 Récepteur des androgènes Acide ribonucléique marqué à la biotine ARN complémentaire ARN messager Average difference Cytosine Dehydroepiandrosterone 17~-estradiol Epidermal growth factor receptor Récepteur des estrogènes Élément de réponse aux estrogènes Équation Extracellular signal-regulated kinase 2 Estrone sulfate

x

Human epidermal growth factor receptor 2 Élément de réponse aux hormones Protéine de chocs thermique Guanine Glyceraldehyde 3-phosphate dehydrogenase Guanine cytosine robust multichip analysis GeneOntology Récepteur couplé aux protéines G membranaires Hybridation non spécifique Logarithme en base 2 Mitogen-activated protein kinase Microarray suite Mauvais appariement de sonde ElA binding prote in p300 Réaction en chaîne par polymérase Positional-dependant-nearest-neighbor Probe logarithmic intensity error estimation Parfait appariement de sonde Picomolaire Récepteur de la progestérone Reverse transcriptase PCR quantitatif Retrovirus associated sequence oncogene Robust Multichip Analysis Modulateurs sélectifs des récepteurs des estrogènes Signal transducers and activators of transcription

nf SDT SP-l Src T TO TEB TF U

Facteur de normalisation Site du début de la transcription Specificity protein Sarcoma inducing gene Thymine Température Bourgeon du bout terminal Transcription factors Uracile

Xl

1

INTRODUCTION

1. Structure de la glande mammaire, mécanisme d'action et complexité de la

régulation génique par la 17p-estradiol (E2).

La glande mammaire présente un aspect de développement unique et fait l ' objet d'une

régulation complexe par des hormones et des facteurs de croissance. Contrairement à la

plupart des organes, cette glande subit la majorité de son développement à l ' âge adulte. Les

deux composantes principales sont: le parenchyme et le stroma environnants. Les éléments

majeurs du stroma sont les vaisseaux sanguins, les adipocytes et les fibroblastes. Le

parenchyme réfère au système de canaux et aux alvéoles dans la glande. Les canaux sont

connectés au papilla mammae par un simple canal primaire. La structure du canal

comprend deux types cellulaires: la couche de cellules épithéliales internes et la couche de

cellules myoépithéliales externes. Le stroma adipeux, à l'intérieur de la glande, fournit un

support aussi bien qu'un substrat dans lequel le parenchyme peut croître et être

fonctionnel. De nombreuses hormones et facteurs de croissance participent au

développement et à la différenciation cellulaire de la glande. En plus de l' estradiol, on

compte la progestérone et la prolactine. Le développement fonctionnel et structurel de la

glande peut être divisé en sept stades: embryonnaire, postnatal, juvénile, puberté,

parturition, lactation et involution. Durant la puberté, le système de canaux prolifère dans

le stroma adipeux, cette croissance décroît graduellement en approchant la maturité

sexuelle. En fait, l'activité mitotique demeure très élevée jusqu'à ce que les conduits

atteignent la périphérie du coussin adipeux. À ce point, les bourgeons terminaux (BFT) des

conduits arborescents deviendront des structures ductales terminales caractérisées par une

très faible activité mitotique. La Figure 1 illustre bien la croissance à partir des BFTs chez

la souris vierge jusqu'à la phase d' involution débutant à la fin de la période d' allaitement.

La différenciation ductale s' effectue chez la souris vierge. Les BFTs (indiqués par les

flèches) vont donner naissance à un vaste réseau de conduits qui seront constitués de

cellules épithéliales ductales. À la gestation, ces cellules vont se transformer en structures

lobulaires ou alvéolaires. Ces formations lobulo-alvéolaires deviendront plus denses au

cours de la lactation puis régresseront au cours de la phase d'involution. On compte, chez

2

la souris, trois paires de glandes mammaires thoraciques et deux paires inguinales. Un

gradient de différentiation va de la première paire thoracique, moins différentiée, vers la Se

inguinale, plus différentiée. Les premières paires seraient plus sensibles à la stimulation

hormonale [1].

Figure 1. Différenciation ductale et lobulo-alvéolaire de la glande mammaire durant les

quatre principaux stades de développement. Les bourgeons terminaux sont indiqués par

une flèche. Référ. : http://mammary.nih.gov/atlas/wholemounts/normal/index.htm1

Les deux principaux récepteurs responsables de la croissance de la glande mammaire sont :

le récepteur des estrogènes (ERa) et celui de la progestérone (PR). ERa est responsable, à

la puberté, de la croissance des conduits (1' épithélium ductal) alors que PR, qui possède

deux isoformes soit l'isoformes A (activateur) et l'isoforme B (répresseur) [2], est

responsable de la croissance lobulo- alvéolaire lors de la parturition. À la puberté, PR est

impliqué dans la croissance ductale [3]. Les cellules épithéliales qui expriment ces

récepteurs sont adjacentes aux cellules proliférantes, ce qui implique que les stéroïdes

ovariens agissent indirectement via des facteurs de croissance paracriniens ou juxtacriniens

pour stimuler l'entrée dans le cycle cellulaire [4]. Dans le tissu normal, la sensibilité du

3

tissu à E2 peut varier. C'est ce que l'on constate lorsque E2 se métabolise en estrone

entraînant une diminution de l'ARNm de ERa [5].

Les estrogènes modulent la transcription de gènes sensibles à l 'hormone selon les besoins

physiologiques de l'organisme. Les principaux organes ciblés par l 'hormone sont: la

glande mammaire, l' utérus, les ovaires, l'épididyme et la prostate. Ce sont des tissus qu'on

dit « conventionnels» par référence au système cardiovasculaire, foie, os, cerveau, reins et

les cellules du système immunitaire. Chez la femme, le plus puissant stéroïde sexuel est la

17~-estradiol alors que l' estrone et l' estriol sont de loin les moins actifs. L ' action des

estrogènes dans les tissus cibles, telle la glande mammaire, est dépendante de l'activité du

récepteur (ER) et de la concentration intra-tissulaire en estrogène, laquelle est affectée par

la concentration sérique et son métabolisme local dans les cellules. Avant la ménopause,

les estrogènes sont synthétisés de façon prédominante dans les ovaires, sous forme

d'estrone sulfate (ElS), à partir de l'androstènedione, puis reconverti en E2 dans les tissus

périphériques dont la glande mammaire. De plus, les surrénales produisent les précurseurs

inactifs dehydroepiandrosterone (DHEA) et sa forme sulfatée la DHEA qui sont

métabolisés en androgènes et en estrogènes actifs dans les tissus périphériques. Après la

ménopause, lorsque les ovaires cessent la production d'estrogènes, le tissu adipeux, la peau

et les muscles deviennent des sources importantes d'estrogène. À partir de cette période, la

formation d'estrogène dans les tissus périphériques passe de 75% avant la ménopause à

100% dû à la transformation des précurseurs surrénaliens [6].

Les hormones stéroïdiennes ont besoin de récepteurs pour agir sur la transcription des

gènes. La voie classique est la première à avoir été étudiée. Les voies dites non classiques

ont été découvertes plus tard. Pour introduire la voie classique, les récepteurs de l'E2 (ERs)

sont des facteurs de transcription nucléaires qui sont inductibles par des ligands, retrouvés

au niveau du cytosol et du noyau. En absence d'hormone, ER est couplé à des protéines de

choc thermique (HSPs), qui l'empêchent d'interagir avec la machinerie transcriptionnelle.

La liaison de l'E2 avec ER (E2-ER) induit un changement de conformation qui libère le

récepteur des HSPs. Les couples E2-ERs vont subir une translocation du cytoplasme vers

le noyau cellulaire et forment des dimères entre eux. Chaque dimère s'associe à l'élément

-- - ----

4

de réponse aux estrogènes (EREs) situé sur le promoteur de chacun des gènes ciblés par

l'hormone. Des coactivateurs ou des corépresseurs seront recrutés de façon à

respectivement, augmenter ou réprimer la transcription de ces gènes.

Les récepteurs ERa et ERp sont les isoformes les mieux caractérisées. Il existe d ' autres

variants de diverses longueurs [7]. Morphologiquement, les knock-outs de ERa montrent

des différences contrastantes avec ceux de ERp suggérant qu' ERa est le récepteur

prédominant dans ce tissu. Les knock-outs de ERp ne semblent pas engendrer de

différences structurelles de la glande mammaire intacte. Trois types de dimères sont

possibles: ERaIERa, ERaIERp, et ERP/ERp. ERa est prédominant dans la glande

mammaire, l'hypophyse, les ovaires, l'utérus, les reins, les surrénales, alors qu' ERp est

présent dans la prostate, les ovaires, les poumons, et dans une variété d'endroit du système

nerveux central et périphérique [8].

Lorsque vient le temps d'identifier les mécanismes de régulation sous-j acents des gènes

ciblés par l' E2, on est confronté à la complexité de la régulation génique via ER. La

difficulté est reliée à l'existence des voies non classiques. Ce qui peut signifier que l 'E2

peut agir sans passer par ses récepteurs ERa ou ERp en se liant par exemple à des

récepteurs membranaires ou via des facteurs de transcription (Figure 2) :

1) ER existe aussi sous forme membranaire, soit 3 % de la fraction des types a et p [8].

Au niveau de la membrane, il peut interagir avec des kinases qui elles, par

phosphorylation, activeront d'autres facteurs de transcription [9]. E2 peut stimuler la

transcription de gènes cibles sans passer par ER, en se liant à des récepteurs couplés

à des protéines G membranaires, tel GPR30 [10]. Ce qui caractérise la voie

membranaire, c'est la rapidité de la réponse, dans les minutes, voir les secondes qui

suivent, dépendant de l'environnement cellulaire, alors que la voie classique se

compte en minutes et en heure.

2) En anglais, on parle de « cross-talk », alors qu'en français, diverses appellations sont

possibles: «interactions croisées», ou «excitations croisées», ou «interactions

inter-sentiers». Par exemple, la voie de signalisation de ER peut interférer avec celle

du récepteur des androgènes (AR) ou celle de la progestérone (PR). ER peut activer

5

la transcription de facteurs de croissance qui vont à leur tour activer des kinases

(telles que EGFR et BER2) qui elles-mêmes vont modifier, par phosphorylation, la

régulation de ERu. Ce genre de rétroaction peut entraîner la régulation de sentiers

tels que Src/Ras/Erk [11]. Il existe d'autres types d'interactions, par liaison directe ou

indirecte, entre des facteurs de transcription, des activateurs ou des répresseurs, cela

dépend du stimulus et de l'état du tissu (normal ou cancéreux).

3) Pour être régulés par l'E2, en plus du ERE, certains gènes sont dépendants de la

fonction AP-l (JunlFos), ou bien de celle de SP-l [9]. Le Tamoxifène, un modulateur

des récepteurs des estrogènes (en anglais SERMs), est un exemple de l' activation de

la transcription de gènes nécessitant la fonction AP-l [12]. Il peut passer

d' antagoniste, dans la glande mammaire, à agoniste dans l'utérus ou stimuler les

mêmes gènes que l'E2 mais par des voies différentes. Lorsqu'il y a compétition entre

les facteurs de transcription pour ERE, on parle d'interférence ce qui conduit à un

phénomène d' insensibilité aux estrogènes puisqu' il n'y a pas d'activation ou

d' inhibition de la transcription [13]. Ce mode d'action existe pour ER vis-à-vis

d'autres éléments de réponse aux hormones (BREs). Ce n'est pas le seul cas

d'insensibilité aux estrogènes [14].

Les mécanismes d' action de l'E2 ne sont pas tous répertoriés comme le démontre la

découverte récente de récepteurs membranaires comme GPR30 [15]. La dégradation

protéolytique joue aussi un rôle important, qu'il faut connaître. En présence d'un ligand, le

récepteur se dégrade en 45 minutes, et en moins d'une vingtaine de minutes sans liaison

[16]. Dans le dernier cas, la régulation de gènes, quoique possible, peut générer un

changement infime qui sera peu ou pas mesurable.

------ - ------------- ----- --- - --- --------.1

Sentier Classique

A) Interaction simple et directe

ER comme Coactivateur

B) Interaction simple semblable à un Co-Activateur

C) Autre interaction simple semblable à un Co-Activateur

0) Complexe d'interactions multiples 1

Sentier non-génomique

E) Activation de kinases en cascade

(nucleus)

Figure 2. Complexité de la régulation des gènes par l'E2.

Adapté de l'article de David G. DeNardo et al., [17].

6

----------~ ---- ----------------~ ---- -- -- -~------

7

2. Les biopuces

La génomique fonctionnelle utilise l ' ensemble des données généré par les proj ets de

séquençage s' aidant de la génomique comparative, dans le but de décrire la fonction du

génome. Les méthodes et les outils maj eurs habituellement associés à la génomique

fonctionnelle sont: la bio-informatique, l' analyse génétique, la mesure de l' expression des

gènes et la détermination de la fonction des gènes. Les projets biologiques quantitatifs à

grande échelle, tel le «projet du séquençage humain », ont donné naissance à diverses

approches dites «-omique» venant du grec peut signifier tout ou complet. En voici

quelques-uns, en anglais, expressome, functome, metabolome, phenome et regulome. Par

exemple, le protéome fait référence à la totalité des protéines d'un organisme. Le

transcriptome est l'ensemble de toutes les unités de la transcription (ARNm) dans une

population biologique de cellules, à un temps donné. Contrairement au génome d'un

organisme qui est fixe, le transcriptome varie. Pour mieux étudier le transcriptome, comme

dans le cas où l' on veut déterminer le niveau d'expression de gènes, des techniques

capables d ' échantillonner des dizaines de milliers de molécules « d' ARNrn »

simultanément sont nécessaires,

Les biopuces sont appropriées pour l' étude du transcriptome puisqu' elles permettent

l' analyse simultanée du niveau d 'expression de milliers de gènes à un temps donné et/ou

pour un même traitement. Les étapes de conception d'une biopuce ne seront pas abordées.

Sur ce sujet, on peut toujours consulter les articles [18-19] sur les caractéristiques des

différentes plateformes utilisant la synthèse in situ, et un sommaire des avantages et

inconvénients de chacune (Tables 1 et 2 de la référence 19). Brièvement, les trois

principaux types de biopuces souvent utilisés sont:

a) Spotted cDNA microarrays (two-dye experiments). Des fragments d'ADNc amplifiés

par PCR sont déposés sur un modèle de matrice de taches (spots) recouvrant une

surface de verre traitée. Après liaison de l'échantillon avec les fragments, on procède

à l' assèchement. Un laser analyse l'image en utilisant deux longueurs d'onde

différentes, correspondant aux deux chromophores (Cy3 et CYS). On peut donc

disposer sur la même biopuce deux traitements différents avec chacun son

chromophore. Ce type de plateforme permet à l'utilisateur d'avoir plus de contrôle

8

sur la disposition des taches, et sur la correction du bruit de fond. Elles sont utiles

pour l'étude d 'un organisme dont le génome est inconnu.

b) Spotted oligonucleotide arrays. Par effet piézoélectrique, les oligonucléotides de 30-

mers pré-synthétisés sont déposés sur un film de plastique enduit de gel. L ' analyse de

l' image est semblable à celle de la plateforme Affymetrix, sauf que le bruit de fond

est plus faible.

c) ln situ-synthesized oligonucleotide microarrays. Des oligonucléotides de 60-mers

sont synthétisés par un procédé de jet d' encre. L ' avantage est qu' en augmentant la

longueur des oligonucléotides, on augmente la spécificité.

Dans la prochaine sous-section, l' accent sera mis sur les aspects techniques et fonctionnels

des biopuces d ' oligonucléotides d'Affymetrix GeneChip®, puisqu'elles ont été utilisées

dans cette étude. La seconde sous-section traite des méthodes de normalisation,

indispensables si on veut comparer les biopuces entre elles.

2.1 Aspects techniques et dynamiques de l'hybridation des sondes

Les biopuces d' Affymetrix contiennent de courtes séquences d' oligonucléotides de 25-

mers de longueur (sondes), synthétisés in situ par la combinaison de deux procédés: la

photolithographie et la chimie des oligonucléotides. Chaque sonde est localisée dans une

aire spécifique sur la biopuce (cellule de sonde). Chaque cellule contient des millions de

copies d'une séquence d'oligonucléotides spécifiques. Il est possible d'avoir de 245 ,000 à

1,000,000 sondes uniques par biopuce de 1.28 cm2.

Voici quelques particularités importantes sur les sondes et quelques notions. Illustré à la

Figure 3, un transcrit est identifié par un ensemble de sondes contenant de Il à 20 paires

de sondes (11 paires pour les biopuces utilisées dans ce mémoire). La moyenne des

intensités des Il sondes de chaque ensemble de sondes est calculée pour donner la mesure

de l' expression d'un transcrit. Chaque paire de sondes est constituée d'un bon appariement

de sonde (PM) et d'un mauvais appariement (MM). Le PM est toujours physiquement

situé adjacent à son MM. Mais les paires de sondes (PM et MM), pour le même ensemble

de sondes, sont réparties à différents endroits sur la surface de la biopuce. De cette façon, si

9

une partie de la surface est endommagée, on minimise la perte d'information associée à cet

ensemble de sondes.

Séquence de référence

5 ------~$~U~--------------------------~---------------------3 :;::;::;:

Séquence de 7; \ ~pa: de:ndeS:AD~

:;: :;:

TGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGC C TTACCCAGTCn C CTGAGGA T ACA Oligo

en-ACCCAGTCTl 'C: CTGAGGA T ACAC b~gO

Image d'intensités de fluorescence

t Paire de sondes positiv~ > MM

La paire de sondes détecte un signal

MM Cellules de sondes

(25-mer)

/M

[1 -', 1 -- '!i Iii -1 l!l ~ ila 1

t '" Cellules de sondes MM t

PM=MM Pas de différence de signal détectée

Paire de sondes négativeSMM >PM

Le signal est nonspécifique

à la séquence ciblée

Figure 3. Disposition d'un ensemble de sondes par rapport à la séquence de référence

ciblée. Le PM désigne un bon appariement de sonde (PerfectMatch) et le MM un mauvais

appariement de sondes (MisthMatch). Illustration adapté: www.Affymetrix.com.

Autre particularité, lors de la confection de la biopuce, Affymetrix tend à disposer les

séquences similaires en rangée pour faciliter la synthèse des sondes. L'impact sur

l'uniformité de la densité d'hybridation est généralement nul.

Le PM est complémentaire au segment de l'exon du gène d'intérêt. Le MM diffère du PM

correspondant par la 13e base (A devient T ou C devient G ou l'inverse). L'idéal est une

fluorescence forte pour le PM (forte intensité), et faible pour le MM correspondant. C'est

ce qui se produit lorsque la sonde est spécifique à la séquence d'intérêt.

Unique

Gene 1.v.arl.an.t A __ [ 0 ~ l l~ r--------Gene 1 Variant B

Gene2 ___ _

Common (" _s" sufflx)

Figure 4. Types d'ensembles de sondes et la spécificité de chacune.

Gene ("_a" suffix)

Référ.: www.affymetrix.comlsupportltechni calJtechnotes/mouse4 30 _ technote. pdf .

10

La Figure 4 montre différents types de suffixe associés à des ensembles de sondes. Chaque

nom des différents ensembles est accompagné d'un suffixe, un groupe de lettres associé au

nombre. Par exemple, 1412122_at est un identifiant d'un ensemble de sonde spécifique à

un seul transcrit (ce qui est préférable). Par contre, 1412122_s_at, ayant un suffixe _s_at,

est commun à plusieurs produits de la transcription et à différentes familles de gènes, et

1412122_a_at à une famille en particulier. Il existe aussi un suffixe _x_at (non représenté

sur la Figure 4). Il représente l'hybridation croisée d'au moins une des sondes de

l'ensemble de sondes. L'utilisation des sondes _s_at peut permettre de cibler

potentiellement des variants d' épissage, en plus des familles de gènes.

Le but visé est de marquer à la biotine la séquence d'ARNm (la séquence cible ARN*) qui

s'hybridera à la sonde d'oligonucléotide synthétisée sur la biopuce. Ce couple sonde

ARN* obtenu forme un duplexe de type ADN/ARN.

2.1.1 Quelques difficultés inhérentes à l'utilisation des biopuces

Bien que les concepteurs de biopuces rassurent les utilisateurs en mentionnant le fait qu'il

y a des millions de copies d'une sonde, il faut être prudent. La cartographie du génome est

constamment révisée, et les critères d'appariement fixés pour concevoir la sonde ne sont

pas parfaits. On parle maintenant, dans ce cas, d'une erreur répétée des millions de fois. De

plus, des sondes tronquées (plus courtes que prévues) peuvent apparaître. Elles sont dues à

Il

un problème lors de la conception des sondes. Lors de l ' ajout des bases A, T, C ou G, on

protège par un masque les sondes qui ne doivent pas recevoir à cette position la base en

question. À part ces sondes tronquées, d' autres problèmes sous-jacents peuvent survenir,

tels que le problème de l ' hybridation croisée, la spécificité des sondes (les extensions _at

n 'y échappent pas) s ' en trouve affectée. D ' autres problèmes techniques peuvent survenir,

la saturation et la reproductibilité en sont des exemples.

Les méthodes de normalisation parviennent à compenser de manière satisfaisante, ou en

partie, quelques-uns des problèmes techniques énumérés précédemment, mais pas toujours.

En cela, la plupart des méthodes de normalisation sont d ' une efficacité équivalente.

Cependant, elles n ' ont toujours pas réussi à réduire de manière satisfaisante le taux de faux

positifs (les gènes non régulés qui sont détectés et que l ' on croit régulés) et celui de faux

négatifs (les gènes régulés qui ne sont pas détectés). Alors que les faux positifs engendrent

des coûts inutiles reliés à la validation des données par d'autres techniques, les faux

négatifs minimiseront à tord l ' importance d'un sentier cellulaire majeur.

a) La saturation. En estimant la relation entre l'intensité du signal et la concentration du

produit de transcription, il a été démontré que le signal devenait non-linéaire en

dessous de 10 pM et au-dessus de 100 pM. Les modèles de normalisation qui ne

tiennent pas compte de la soustraction du PM-MM améliorent l ' étendu des signaux

dans les deux sens [20].

b) La reproductibilité. Mis à part le fait de déposer sur plus d'une biopuce une quantité

d'ARNm prélevée à partir d'une solution non homogène, plusieurs problèmes

peuvent expliquer la difficulté de reproduire les mêmes résultats. Citons par exemple

la faible spécificité et sensibilité de certaines sondes, l'encombrement et les

interactions possibles entre les sondes. Certains auteurs se sont interrogés sur

l ' importance de valider ou non, par une autre technique, les résultats de biopuces

[21].

c) Le taux de faux positifs et de faux négatifs. C'est un problème qu'on ne doit pas sous

estimer. Par exemple, il est de coutume, en statistique, de fixer le taux de confiance à

5%. Ceci signifie qu'avec 5000 gènes, le taux d'erreur en nombre de gènes est de

- ~~- ~----------

12

250 gènes (5% * 5000). Car le test d'hypothèse de 5% est testé sur chaque gène,

alors que dans les cas habituels l 'hypothèse est appliquée sur une seule valeur, soit la

moyenne ou la variance, par exemple d'où origine les faux positifs et les faux

négatifs? C'est en répondant à la question: « Comment fait-on pour savoir quels sont

les gènes modulés? » Différentes méthodes servent à déterminer quels sont les gènes

exprimés de manière différentielle en comparant la valeur traitement et la valeur

contrôle. Les méthodes dépendent des valeurs des intensités normalisées et donc, des

méthodes de normalisation qui elles donnent des intensités différentes. Pour

expliquer ce dernier point, imaginons deux méthodes de normalisation: A et B. Si la

méthode A calcule une valeur d'intensité brute de 1000 pour un gène sans traitement

(le contrôle) et de 2000 pour le gène avec traitement, nous concluons que, suite au

traitement, ce gène est deux fois plus régulé. Si la méthode B donne 1100 pour le

contrôle et 1900 pour le gène traité, nous concluons que le gène est régulé de 1.72

fois. Si le seuil d'acceptation que l'on s'est fixé est de 2.00 alors le gène est exclu. Si

la méthode de normalisation surestime la valeur réelle nous obtenons un faux positif,

et un faux négatif dans le cas d'une sous-estimation de la valeur.

2.2 Étapes de transformation des données

Avant de présenter de manière plus détaillée ce qui caractérise chacune des méthodes de

normalisation, voici d'abord globalement les grandes étapes du traitement statistique des

données. Ce que nous cherchons à obtenir, une fois toutes les étapes d'analyse effectuées,

c'est une liste de gènes qui permettra de caractériser l'effet d'un traitement. La

transformation des données d'intensités en données d'expression s'effectue, globalement

en 3 étapes: la correction du bruit de fond, la normalisation (iuncluant ou non la correction

du PM), pour ensuite déterminer la valeur d'expression de chaque gène.

Le mot bruit, en anglais « noise », est un terme utilisé dans un sens large, faisant référence

aux effets indésirables qui s'additionnent à la variabilité biologique que l'on désire

mesurer. Il peut être de toutes sortes. Souvent ce mot désigne le « bruit optique» dû au

scanner car même si un échantillon est dépourvu d'ARNm, l'analyseur détectera un faible

signal qui sera attribué à de la fluorescence, sur la biopuce. Le terme bruit de fond est plus

13

large car il peut aussi s' appliquer aux biopuces dont la technologie ne nécessite pas le laser

pour effectuer la mesure de fluorescence.

La normalisation consiste à corriger les différences systématiques sur la biopuce, ou sur

plusieurs biopuces simultanément afin de les comparer. Plusieurs méthodes de

normalisation sont disponibles, par exemple, loess [22], invariantset [23], qspline [24 ],

quantile [25] , et des modèles statistiques non paramétriques [26]. La question est

incontournable: laquelle choisir? Pour la correction du PM, chaque méthode de

normalisation traite différemment les sondes PMs. Certaines méthodes ajustent pour le PM,

certaines ne le corrigent pas et d' autres vont soustraire à sa valeur celle du MM. En plus de

ces derniers ajustements, certaines méthodes introduisent le concept d ' affinité de sonde qui

est basé sur l'hypothèse que lors de l'hybridation, les sondes n'ont pas toutes la même

affinité pour une séquence ciblé.

Pour aider à la compréhension en statistique, plus il y a de données et plus on se rapproche

de la loi normale. Cependant, les données de biopuces ne suivent pas une loi normale. Par

conséquent, toutes les méthodes de normalisation doivent transformer les données pour se

rapprocher le plus possible d 'une loi normale ce qui facilite de beaucoup l' analyse

statistique.

Finalement, un terme qui vient souvent lorsque l'on parle de normalisation est celui de

« valeur d'expression. » Cette étape consiste à calculer la somme des intensités de chacune

des sondes (11-20), de l'ensemble de sondes, pour obtenir la valeur d'expression du gène.

Autrement dit, il s'agit de quantifier l'intensité de fluorescence en quantité d'ARNm

produit par les gènes modulés. La prochaine sous-section montre le cheminement qui a

conduit à l'amélioration des méthodes de normalisation.

2.3 Algorithmes de normalisation (modèle linéaire et modèle logarithmique)

2.3.1 Modèle d' Affymetrix

14

En 1999, MAS 4.0 d'Affymetrix offrait une méthode appelée «Average Difference»

(AvDiff ou AD). Pour chaque biopuce on calculait la moyenne des intensités des paires de

sonde en effectuant la soustraction du PM, conjointement à l'utilisation d'une moyenne

robuste pour se prémunir des valeurs extrêmes. L'équation du modèle de AvDiff est:

Avec j = 1, ... , Jet i=1 , ... ,1

La lettre « i » représente la biopuce, «j » la paire de sonde, le paramètre Si représente la

quantité d'expression et «Eij» les erreurs de diverses provenances pour la paire de sonde.

Le problème avec A vDiff est que l'estimation est appropriée si le terme représentant

l'erreur «Eij » est de variance égale entre les paires de sondes. Ce qui n'est pas toujours le

cas. Comme on dit en statistique, l'hypothèse de la variance égale est alors violée. En fait,

plus la moyenne des intensités est élevée, et plus la variance augmente [27]. C'est une

source de bruit pour les produits de la transcription faiblement exprimés qui ne tient pas

compte de l'affinité de sonde. De plus, MAS 4.0 génère des valeurs d' expression

négatives. C'est là que le modèle logarithmique s'impose puisqu'il ne génère que des

valeurs positives. En 2002, se basant sur les succès des méthodes concurrentes, Affymetrix

remplace le modèle linéaire de MAS 4.0 par la transformation logarithmique permettant

ainsi de réduire la dépendance de la variance sur la moyenne. Ce modèle s' appelle MAS

5.0 :

Log(PMij- CTij) = log(SD + Eij, Avec j = 1, ... , J. i =}, ... ,/

Le signal est l'anti-Iog d'une moyenne robuste (Tukey's biweight) des valeurs de log(PMij

- CTij). « CT » représente la valeur du MM. Elle est ajustée si elle ne répond pas à la

condition MM<PM afin d'éviter d'obtenir des valeurs négatives, difficiles à interpréter. En

plus de la soustraction du MM, MAS 5.0 utilise un seuil alpha (alpha <0.04) au-delà

duquel un gène est considéré absent. Il est important de mentionner que le terme absent ne

veut pas dire que ce gène n'est pas modulé. Il signifie plutôt qu'il est situé dans les limites

de détection tel que le stipule le modèle. Ainsi, il est moins probable qu'il soit régulé à la

valeur qu'on lui a associée. On peut le voir comme un seuil critique i.e un « P value»

associé à la valeur moyenne des intensités des sondes. Dans le cas contraire, le gène est dit

présent. Affymetrix suggère de ne pas considérer les gènes absents comme étant régulés.

La même valeur de seuil alpha est appliquée à toutes les sondes alors que certaines sondes

- -- - - - -

15

ont un comportement qui diffère de la majorité. Un seuil alpha différent pour chaque sonde

conviendrait mieux, mais en pratique ce serait difficilement applicable.

2.3.2 Modèle dChip

Le modèle de Li et Wong [28] est basé sur le principe qu'au niveau de la variance, la

variation d'une sonde spécifique entre plusieurs biopuces, est beaucoup plus petite que

celle considérée entre les sondes d'un même ensemble de sonde c'est-à-dire une déviation

standard jusqu'à cinq fois plus petite. Ceci suggère un fort effet d'affinité de sonde. Li et

Wong proposent d'ajouter au modèle le concept d ' affinité de sonde représentée par le

paramètre <pj. On obtient le modèle multiplicatif suivant:

PMi} -MMi} = 8i<Pj + ti}, Avec i = l, ... ,!, et j = 1, ... , J

Cependant, pour estimer « <pj » convenablement, il faut avoir suffisamment de biopuces. Le

modèle est basé sur l'estimation de la vraisemblance maximale de l'expression du

paramètre 8i sous l'hypothèse que l'erreur suit une distribution normale. Le logiciel porte

le nom de dChip (www. biostat.harvard.edulcomplab/dchipl).

2.3.3 Modèle Robust Multichip Analysis (RMA)

Par la suite, une procédure de normalisation et de correction du bruit de fond [25] [27] ont

été proposées. Le Robust Multichip Analysis (RMA) se différentie en proposant la

correction du bruit de fond, et la normalisation au niveau des données de sondes en

utilisant plusieurs biopuces. Ceci améliore la mesure de l'expression. Ce modèle est additif

et linéaire et les valeurs logarithmiques sont utilisées :

T(PMij) = ei + aj + tij, Avec i = 1, ... , l, et j = 1, ... ,1.

« T » représente les intensités logarithmiques du PM, avec un bruit de fond corrigé et les

valeurs normalisées. « ei » est le log2 de la valeur d'expression pour les biopuces (i = 1, ... ,

1). « aj » représente les effets d'affinité des sondes G = 1, ... , J), et le paramètre « Eij »

symbolise l'erreur. Ce modèle additif est différent de celui de Li et Wong puisqu'il se

libère de la dépendance de la variance moyenne. On obtient ainsi plus de performance dans

les basses intensités. Le mot « Robuste» de RMA vient de l'utilisation de la médiane polie

«median polish» utilisée pour estimer, sur une échelle logarithmique, les valeurs

16

d'expression pour « ej ». La médiane polie est plus robuste qu'une analyse de variance

comme ANOV A. La méthode RMA ne tient pas compte du MM. Certaines études ont

démontré que les méthodes qui utilisent le PM seulement donnent une valeur plus juste que

si on soustrayait la valeur du MM [29].

Les trois principales raisons pour ne pas utiliser le MM sont:

a) Le MM contient de l ' information non spécifique mais aUSSI de l ' information

spécifique.

b) Le mécanisme pour expliquer l'hybridation non spécifique n'est pas bien compris.

c) Le MM est coûteux et prend beaucoup d'espace sur la biopuce.

2.3.4 Modèle GeRMA

En 2004, RMA devient GCRMA [30]. L ' idée derrière GCRMA découle en partie des

travaux de Naef et Magnasco [31-32]. Ces derniers proposent une solution pour calculer

l ' hybridation non spécifique (NSB) afin de déterminer l'affinité de sonde selon la position

des bases A, C, G, T dans la séquence et le contenu en G/C. En fait, le NSB est dû à

l ' hybridation partielle entre les brins imparfaitement complémentaires, les énergies de

liaison, et les effets dûs au marquage des bases. Dû à la triple liaison, les bases G/C sont

plus fortement liées lors de hybridation que les bases AIT.

2.3.5 Modèle Positional-Dependent-Nearest-Neighbor (PDNN)

Zhang et al, en 2003 croient qu'on peut améliorer les modèles en considérant les

interactions moléculaires. Ils ont publié le modèle Positional-Dependent-Nearest-Neighbor

(PDNN) [33]. Selon l'opinion de Naef et Magnasco sur ce modèle, le point faible de

l ' approche est le peu de puissance prédictive ajoutée.

2.3.6 Modèle Probe Logarithmic Intensity ERror estimation (PLIER)

En 2004, Hubbell H., (le principal statisticien chez Affymetrix) publie sa méthode

PLIER [34] Probe Logarithmic Intensity ERror estimation (PLIER). Cette méthode semble

supérieure à celle de MAS 5.0 parce que tout comme GCRMA, PLIER tient compte de

l ' affinité de sonde. Cependant, contrairement à GCRMA, PLIER offre le choix de

17

soustraire ou non le MM de la valeur du PM. Pour évaluer l ' affinité de sonde, il faut avoir

plusieurs biopuces. Le résultat est un signal calculé à partir de l'ensemble des sondes, avec

plus de performance dans les basses et hautes intensités. Dans les hautes intensités, l'erreur

est approximativement proportionnelle à la concentration de la cible. Dans les basses, elle

est approximativement proportionnelle à l'intensité de l'hybridation du bruit de fond [35].

PLIER utilise un « M-estimator», avec « M» pour «maximum likelihood estimation».

Brièvement, c'est une méthode robuste définie par une fonction qui est utile lorsque l ' on

est confronté à des données extrêmes puisque la valeur est réajustée à chaque étape du

calcul de la variable.

2.4 Avantages et inconvénients des procédures de normalisation

Généralement, les méthodes de normalisation se basent sur des hypothèses à valider ou à

invalider à partir des données. Les deux hypothèses les plus courantes sont que

l'expression de la plupart des gènes ne change pas à travers les conditions de traitement et

que le nombre de gènes surexprimés est sensiblement égal au nombre de gènes inhibés, et

ce pour les mêmes conditions.

Pour la normalisation, les approches statistiques les plus populaires sont le «Global

scaling », «Rank invariant », «cyclic loess» ou «Quantile-normalization ». Les

principaux avantages et inconvénients de chaque approche sont les suivants.

a) «Global scaling method» est l'approche utilisée pour MAS 4.0 et MAS 5.0. Il

s'agit de mettre à échelle les biopuces à normaliser par rapport à l'intensité de la

moyenne tronquée, ou « trimmed means », au lieu de la moyenne conventionnelle.

La moyenne tronquée est obtenue après avoir enlevé un certain pourcentage des

valeurs situées aux extrémités. Par exemple, pour une moyenne tronquée de 50%,

25% des valeurs sont enlevées à l'extrémité inférieure et 25% à l'extrémité

supérieure. Autre exemple, pour une moyenne tronquée de 100%, on obtiendrait la

médiane puisqu'on enlèverait 50% des valeurs au-dessus et 50% en dessous. La

moyenne tronquée est donc utilisée parce qu'elle est moins sensible aux valeurs

extrêmes que la moyenne conventionnelle faite avec l'ensemble des valeurs. Cette

18

approche n'est pas suffisamment robuste pour traiter la tendance à la non-linéarité

entre les biopuces.

b) (( Cyclic Loess» (Dudoit et al [22]). Contrairement à la méthode précédente, celle

ci évalue la variabilité de la sonde au niveau de l'ensemble des biopuces que l'on

désire comparer afin d'ajuster, si nécessaire, une courbe de normalisation non

linéaire à l'aide d' un diagramme. La normalisation est effectuée entre toutes les

biopuces. L ' avantage est que la normalisation s' effectue de façon globale, par

rapport à la biopuce de référence. L'inconvénient est le temps d'exécution du

programme pour normaliser puisque le traitement entre les biopuces s' effectue

deux à deux.

c) (( Rank invariant» (utilisé par la méthode dChip) est une méthode non linéaire.

Pour chaque biopuce de traitement, on veut un ensemble de gènes possédant un

rang conservé entre la biopuce de référence et la biopuce de traitement. Cet

ensemble de gènes, dit de rang invariant, est considéré comme étant des gènes non

différentiellement exprimés. Autrement dit, les deux groupes sont homogènes au

niveau de l'expression, donc ils ne sont pas modulés.

Chaque biopuce est normalisée contre la biopuce de référence en ajustant une

courbe de normalisation non linéaire de l'ensemble de gènes invariants. La

méthode est plus robuste que « Cyclic Loess », spécialement lorsque la distribution

des expressions des gènes sur les biopuces est différente. On peut utiliser ou non le

MM. Le désavantage est la sélection de la biopuce de référence, puisque c' est sur

elle que tout repose. Par défaut on peut choisir la biopuce représentant la médiane

des biopuces.

d) (( Contrast » (Âstrand, 2003) [36]). Pour normaliser il faut placer les données sur

une échelle logarithmique. Les données seront transformées sur une base

orthogonale. Les courbes de normalisation seront ensuite ajustées de façon à

reposer sur une même ligne horizontale. D'une façon générale, lorsque l'on

normalise, on suppose habituellement une variabilité uniforme pour l'ensemble des

biopuces qui sera normalisé. Il suffit de faire les corrections sur chacune des

biopuces pour les ramener au même niveau. L'avantage de cette méthode sur celle

19

de Dudoit « Cyclic Loess» (bien qu'en fait, elle en est une extension) est sa rapidité

puisqu'elle utilise un sous-ensemble de sondes.

e) « Quantile-normalization » Le but est de normaliser les biopuces de manière à ce

que les intensités des sondes aient la même distribution. Cette approche est

appropriée par le fait que l'on considère la quantité totale de gènes et que

généralement seul un petit nombre d' entre-eux seront modulés, sinon on perdrait de

l' information significative. C'est un algorithme nonparamétrique qui rapidement

normalise un groupe de biopuces. On caractérise cette méthode de robuste,

puisqu'elle performe bien en cas de non-linéarité entre les biopuces. En effectuant

la moyenne des quantiles on réduit de beaucoup la variabilité, avec peu de biais.

Ces dernières années, beaqucoup de publications discutent de la performance des méthodes

de normalisation. Elles concluent souvent en faveur des méthodes RMA et GCRMA. En

fait, toutes les méthodes ont leurs forces et leurs faiblesses. MAS 5.0 performe mieux que

RMA quand les zones de forte hybridation contrastent avec des zones de faible

hybridation. En termes de précision, dans la mesure des faibles niveaux d'expression, les

méthodes de normalisation qui performent le mieux seraient: GCRMA> MAS 5.0 > RMA

[27]. L'explication possible est que GCRMA tient compte d'un ajustement dû à

l 'hybridation non spécifique dans le calcul du bruit de fond. Cependant, sur l'ensemble des

niveaux d'expression, RMA serait supérieur à GCRMA et à MAS5.0 [37]. MAS5.0 est

toutefois, plus linéaire sur une large gamme de niveaux d'expression que RMA et dans

cette situation GCRMA est quand même très performant puisqu'il tient compte du fait que

chaque sonde n'a pas la même affinité pour une séquence donnée, d'où la sensibilité

variable selon le niveau d'expression du produit de transcription. En considérant le contenu

en GC de la sonde, GCRMA réduit la variance causée par « l'effet de marquage » dûe à la

fluorescence.

Outre ces deux études, [30] [37], RMA est reconnu pour bien pondérer dans les basses

intensités. Cependant, MAS 5.0 surpasse RMA dans le cas d' artéfacts lorsque la distorsion

sur la biopuce est importante. Visible à l'observation de l'image de la biopuce, la

distorsion est occasionnée par l'existence de zones de fortes hybridations qui contrastent

20

parmi des zones de faibles intensités (biais régionaux). MAS 5.0 corrIge ces biais

régionaux mieux que RMA en divisant la surface de la biopuce en 16 zones évaluant

chacune à tour de rôle avec les autres zones alors que RMA tend à pondérer les sondes trop

fortes ou trop faibles en se basant sur l ' ensemble des intensités des sondes des autres

biopuces de l ' expérimentation. Ainsi, si le nombre de sondes de fortes et de faibles

intensités sont équivalentes, RMA pondérera à la baisse la moitié correspondant aux fortes

intensités, et ne tiendrait pas compte de la moitié restante. Par contre, l ' utilisation d 'un

facteur appelé « scaled factor », permettera à MAS 5.0 de pondérer. Dans le cas où la

distorsion est moyenne ou faible, RMA surpasse MAS 5.0 [38]. C ' est un biais qui, non

considéré, pourrait potentiellement introduire un facteur de discordance entre les études de

comparaisons de méthodes. Les diverses méthodes de normalisation peuvent être plus ou

moins affectées par ces biais régionaux. Pour terminer, il est important de mentionner que

le choix de la méthode de normalisation affecte la détermination des gènes

différentiellement exprimés.

3. Définition du problème et approches expérimentales

3.1 Problématique

En science, différentes technologies sont disponibles pour obtenir des résultats qUI

serviront à valider une hypothèse ou à répondre à une question précise. Contrairement à

une étude centrée sur un ou deux gènes, évaluer l ' ensemble des niveaux d'expression des

gènes produits de la transcription dans un organisme in vivo est plus problématique. La

conception d'une telle expérience nécessite une approche structurée à plusieurs niveaux.

Bien que je n'ai pas personnellement participé à ces étapes, elles font tout de même parties

de la problématique.

Dans le choix d'une technologie pour évaluer, à l'ensemble du transcriptome, l ' action

d'une hormone, le qRT_PCR aurait été un choix qui se serait avéré assez coûteux et

laborieux principalement dû à la sélection des amorces pour des milliers de séquences. Par

contre, les biopuces commerciales s'avèrent un choix judicieux puisqu'elle permettent de

mesurer l ' expression de la quasi totalité des gènes d'un organisme par l'intermédiaire de

21

milliers de sondes d'oligonucléotides complémentaires des séquences d 'ARNm de

l ' échantillon que l'on désire mesurées. Sans cette technologie, cette étude aurait été

difficile.

Dans le choix du modèle expérimental, la souris est un modèle de choix applicable à

l ' humain puisque le génome de la souris est complètement séquencé. De plus, l ' homologie

élevée entre le génome de la souris et celui de l 'humain permet l ' identification de la

plupart des gènes chez l'humain par leur orthologue chez la souris. En fait, 99% des gènes

de la souris ont un orthologue chez l 'humain. Afin d'éviter la présence d 'un biais dû à la

variabilité génétique des souris, l'ARNm provenant d ' un groupe de souris recevant le

même traitement a été utilisé. De plus, de façon à enlever le plus de variables nuisibles, les

souris se devaient d'être sans ovaire et synchronisées dans leur cycle, traitées et sacrifiées

sur une courte période de temps. La qualité des échantillons et l'état des biopuces (surface

abîmée) ont été vérifiés ainsi que la qualité de l'hybridation.

Une fois ces étapes complétées, c ' est à ce moment qu' a débuté ma tâche. Elle consistait à

identifier les gènes modulés par l'E2 dans la glande mammaire de souris suite à un

traitement de 1h, 3h, 6h, 12h, 18h et 24h. Les courbes des profils d'expression et la

distribution des gènes régulés par processus cellulaires ont permis de répondre à cette

question. De plus, il était impératif d'évaluer le niveau de confiance accordé aux données

puisque la qualité des profils d'expression et par conséquent, les processus cellulaires

identifiés en dépendait. Ainsi, l'impact du choix de la méthode de normalisation influe

grandement sur l ' identification des gènes régulés et leur profil d'expression. C'est un

problème important puisque les courbes des profils d'expression seront bâties à partir des

intensités normalisées des sondes. Une partie importante de ce mémoire porte donc sur une

meilleure compréhension des algorithmes de normalisation. Les méthodes MAS 5.0 et

RMA ont été comparées en ce qui concerne le nombre de gènes considérés exprimés de

façon différentielle et l'intensité des niveaux d'expression.

------- -

22

3.2 Approche expérimentale

Les biopuces d'expression de souris GeneChip d'Affymetrix de type MOE_ 430 ont été

utilisées. Elles contiennent 45,037 ensembles de sondes dont 21,103 « expressed sequence

tags » (ESTs).

L'échantillon d'ARNm provient d'un groupe de 12 souris âgées entre 12 et 14 semaines

(vierges et sevrées). Six biopuces correspondant aux temps de traitements suivants: 1, 3, 6,

12, 18 et 24 heures sont utilisées pour tracer les profils d'expression. Étant donné

l' importance du contrôle (GDX) pour déterminer le sens de la régulation des gènes

(modulés positivement ou négativement), deux contrôles (GDX), constitués chacun de

l'ARNm de deux groupes (G1 et G2) de 10 souris chacun ont été utilisés. La moyenne des

deux contrôles a été utilisée dans le calcul des niveaux d'expression.

Les méthodes de normalisation RMA et MAS 5.0 ont été appliquées conformément aux

procédures standard suggérées par les concepteurs. Seul l'ajustement du rapport

signal/bruit de fond est adapté à la plateforme Affymetrix du Centre de recherche du

CHUQ/CHUL.

Une approche similaire à la méthode « low fold change» (LFC) de Mutch et al [39] a servi

à déterminer quels étaient les gènes exprimés de façon différentielle entre le groupe

traitement et le groupe contrôle. En divisant la valeur d'intensité brute du gène par la

valeur d' intensité brute du contrôle, on obtient le Nombre de Fois que le gène est modulé

(NF ou ratio). Par exemple, une valeur de NF de +2.00 signifie que le gène est modulé

positivement par rapport à la valeur d'intensité du contrôle. La détermination des gènes

exprimés de façon différentielle en vue de la confIrmation par qRT_PCR s'est fait à l'aide

des équations 1 et 2. La valeur d'intensité considérée est représentée par X.

RMA : LFC= ±1.59 (éq. 1)

MAS 5.0 : LFC= ±1.70 + 97.5/X (éq.2)

LFC réfère à la méthode appelée Low F old Change. À partir d'études préliminaires sur la

comparaison des données de qRT_PCR à celles des biopuces, une valeur de seuil minimal

23

du NF a pu être déterminée. En bas de ce seuil, il y avait moins de concordance entre les

deux ensembles de données. Pour la méthode RMA, cette valeur minimale a été fixée à

±1.59.

Avec la méthode MAS 5.0, un facteur de correction (97.5/X) sur la valeur du ratio calculée

a été nécessaire. Ce facteur de correction n ' est applicable que sur les basses intensités.

C' est dû au fait que le bas niveau de fluorescence obtenu pour certains gènes paraît moins

significatif. Si vous aimez mieux, ce n ' est pas très rassurant sur le point de la validité de la

mesure prise. Certains enlèvent carrément les gènes ayant des intensités sous un certain

seuil, par exemple, sous le seuil de 150 unités d ' intensité. Dans notre cas l ' option de

corriger le NF permettait de ne pas enlever de gènes. Un NF par exemple de 5.00 dans les

basses intensités devenait après application du facteur de correction un NF de 2.00. Il est

plus approprié de donner moins de poids à un ratio dans les basses intensités que dans les

fortes.

La méthode de groupement QT -clustering disponible avec le logiciel GeneSpring 6.1

(Silicon Genetics, Redwood City, CA, USA) a été utilisée pour tracer les profils

d'expression des gènes. Les profils ont été regroupés en tenant compte du coefficient de

corrélation « r » de Pearson sur une échelle entre 0 et 1. Les regroupements ont été faits

avec différentes valeurs de « r » soit 0.9, 0.7 et 0.5. Une superposition parfaite des courbes

correspond à une valeur de r= 1. Pour la représentation graphique, on prend la médiane des

intensités du gène à tous les temps, incluant les valeurs des contrôles (GDX) qui eux sont

aussi situés sur l ' axe des « x » au temps zéro. Sur l'axe des « y », la médiane des intensités

se voit attribuer la valeur 1 sur l'axe logarithmique. Les autres valeurs d' intensités de

chacun des gènes sont distribuées de part et d'autre.

Basé sur la nomenclature de GeneOntology, le programme MappFinder [40] a été utilisé

pour regrouper les gènes par processus cellulaires. Ce logiciel permet d'associer à chaque

processus un indice calculé ( z score) de manière à les ordonner par ordre décroissant

d' importance. Une valeur supérieure à ce seuil signifie que le résultat n ' est pas dû

seulement au hasard. Seules les valeurs de « z score» positives ont été retenues puisque les

24

valeurs négatives représentent les termes sous représentés. Théoriquement, un « z score»

de 1,96 correspond à un « P value» de 0,05. Pour être plus rigoureux, nous avons retenu

les processus cellulaires ayant, en plus du « z score» de 2.00, la présence d' au moins 2

gènes régulés. La grandeur de la valeur de « z score» dépend de l'écart entre le nombre de

gènes modulés et le nombre de gènes mesurés sur la biopuce. Un même gène peut

appartenir à plus d' un processus.

25

CHAPITRE 1 Profils d'expression des gènes régulés par la 17fl-estradiol dans la

glande mammaire de souris.

1.1 Matériel et méthodes

Animaux et traitement

Des souris de souche C57BL6 (Charles River (St-Constant, Canada), âgées de 12 à 13

semaines, acclimatées pendant une semaine, ont été utilisées. Les animaux ont été disposés

dans une pièce à environnement contrôlé (température: 22 ± 3 oC ; humidité: 50 ± 20 %;

cycles: 12 h de lumière et 12 h de clarté). Les souris ont libre accès à l'eau et à la

nourriture (Lab Diet 5002 (pellet), Ralston Purina, St-Louis, MO). L'expérience a été

conduite dans un aménagement pour animaux approuvé par le Conseil Canadien sur les

Soins aux animaux (CCSA) et l'Association chargée de l'Évaluation et l'Accréditation des

Soins pour les Animaux de Laboratoire, L'étude a été accomplie en accord avec le Guide

CC SA pour les Soins et l'Utilisation des Animaux Expérimentaux.

Les animaux pesant entre 18.6 et 25.2 g (moyenne de 21.9 g) ont été répartis selon leur

poids corporel et séparés en 8 groupes de 12 animaux chacun: groupe 1: Gonadectomie

(GDX) contrôle (pool 1); groupe 2: GDX contrôle (pool 2); groupes 3 à 8: GDX + 17~

estradiol (E2; 0.05 J.lg/souris). Jour 1 de l'étude, les animaux ont subi une ovariectomie

bilatérale (GDX) sous anesthésie d'isoflurane. Jour 8 de l'étude (24 heures avant la

nécropsie, les groupes 1 et 2 de souris ont reçu une simple injection sous-cutanée (0.2

ml/souris) du véhicule seul (5 % ethanol-0.4 % de méthylcellulose) alors que les groupes 3

à 8 ont reçu une dose physiologique d'E2 (0.05 Ilg mg/souris) afin de renverser à 100%

l'effet de l'ovariectomie en fonction des temps suivants avant la nécropsie: groupe 3: 1 h ;

groupe 4 : 3 h; groupe 5 : 6 h; groupe 6 : 12 h; groupe 7 : 18 h; groupe 8 : 24 h.

Collection du tissu

Jour 8 de l'étude, les souris, sous anesthésie d'isoflurane, sont devenues exsangues par

excision de l'aorte abdominale, avant la dislocation cervicale. Des morceaux de la glande

mammaire inguinale ont été prélevés des deux côtés de la souris, et rapidement congelés

dans l'azote liquide. Pour chaque groupe, les morceaux prélevés de la glande mammaire

~~~~~~~~----~ ~~ ----- - ~~~

26

provenant des 12 souris furent groupés dans le même tube. Les tissus furent gardés à -80

oc jusqu'à l'extraction de l'ARN.

Isolation de 1 JARN et Hybridation des Biopuces

L'ARN total du tissu a été isolé en utilisant du Trizol (Invitrogen, Burlington, ON, Canada)

en suivant le protocole du manufacturier. L'ARN total a été converti en ADNc par

incubation avec la SuperScript II Reverse Trranscriptase (Invitrogen) et l' oligo T7 -oligo

d(T)24. L'ADNc généré a été extrait au phénol/chloroforme, précipité à l'éthanol et

resuspendu dans de l'eau traitée au diéthyl pyrocarbonate. L'ADNc a été transcrit in vitro

en utilisant le T7 Bio-Array High Yield RNA Transcript Labeling kit (Enzo Diagnostics,

Farmingdale, NY) pour produire de l'ARNc biotinylé. L'ARNc biotinylé a été purifié avec

le RNeasy Mini Kit (Qiagen, Valencia, CA) selon le protocole du manufacturier. L'ARNc

purifié a été fragmenté en 30- à 200-mer, en utilisant un tampon de fragmentation (100

mM potassium acetate-30 mM magne sium acetate-40 mM Tris-acetate, pH 8.1), pendant

20 min à 94°C. La qualité de l'ARN total, la synthèse de l'ADNc, l'amplification de

l' ARN c, et la fragmentation de l' ARN c ont été effectués sur électrophorèse sur capillaire

(Bioanalyzer 2100; Agilent Technologies, Palo Alto, CA).

Les sondes d'ARNc ont été hybridées sur les biopuces 430_2.0 de Genechip (Affymetrix,

Santa Clara, CA). L'ARNc fragmenté a été incubé avec un tampon d'hybridation lx (0.1

mg/ml d'ADN de sperme de hareng, 0.5 mg/ml de BSA acétylé, 5 nM d'oligonucleotide de

contrôle B2) et une solution de contrôle d'hybridation d'eukaryote (1.5 pM BioB, 5 pM

BioD, 25 pM BioD, et 100 pM cre) pendant 16 h à 45°C avec une rotation constante (60

rpm). La sonde d'ARNc provenant du groupe contrôle a été hybridée sur deux biopuces

alors que la sonde d'ARNc correspondant à chaque temps a été hybridée sur des biopuces

séparées. La station fluidique 400 Genechip d' Affymetrix a été utilisée selon le protocole

EukGE-WS2A v4. Le marquage a été efffectué avec un conjugué de streptavidine et de

phycoerythrine (SAPE) suivis d'une amplification avec un anticorps anti-streptavidine

biotinylé et par un second cycle de solution SAPE. Les biopuces ont été balayées par le

Scanner Genechip 3000 (Affymetrix). Les intensités du signal pour la B-actine et les gènes

GAPDH ont été utilisées comme contrôle de qualité. Le ratio des intensités de fluorescence

27

pour les parties 5' et 3' de ces gènes domestiques était inférieur à 2. Les fichiers CEL sont

disponibles sur Gene Expression Omnibus (GEO, NCBI) à l'adresse suivante:

www.ncbi.nlm.nih.gov/geo/.

Méthode pour déterminer quels sont les gènes modulés de façon significative

La détermination des gènes exprimés de façon différentielle s'est faite à l ' aide des

équations suivantes :

RMA: LFC= ±1.59

MAS 5.0: LFC= ±1.70 + 97.5/X

En divisant la valeur d'intensité brute du gène par la valeur d'intensité brute du contrôle,

on obtient le NF.

Ces valeurs de NFs représentent les seuils minimums critiques pour qhacune des méthodes.

Elles démontrent aussi qu'un NF de ±2.00 pour une méthode ne correspond pas à la même

valeur pour l'autre méthode. Afin de s'assurer d'analyser des gènes fortement modulés

suite au traitement par E2 dans la glande mammaire, dans l'une ou l'autre des méthodes,

nous avons considéré les gènes ayant un NFs 2:2.00 comme étant différentiellement

exprimés.

Quantification de l'expression par qRT_PCR

La méthode de q RT _ PCR [41] a été utilisée pour quantifier et confirmer l'expression des

gènes. Une quantité de 30 ug d'ARN total ont été extraits (compagnie Trizol) et traités à la

DNAse1 (Qiagen), puis purifiés avec Rneasy Min Eluate Cleanup (Qiagen) et dosés au

spectrophotomètre. La synthèse des ADNc a été effectuée en utilisant un oligo dT, 5 ~g

d'ARN total et 200U de l'enzyme Superscript III (Invitrogen) suivie d'une purification

avec PCR purification Kit (Qiagen). La quantification en temps réel des gènes sélectionnés

a été faite en utilisant un gène de référence, Hprt1, et un contrôle d'ADN génomique, à

partir d'une quantité d'ADNc correspondant à 20 ng d'ARN total. L'appareil est le Light-

28

Cycler et la trousse LightCycler FastStart DNA Master SYBRGreen l (Roche) aux

conditions de PCR, en effectuant 40 cycles :

95°C/10 sec, 55-65°C /5sec, 72°C /7-11 sec et 80°C /3 sec.

Classification des gènes par processus biologique de Gene Ontology

Basé sur la nomenclature de GeneOntology, le programme MappFinder [40] a été utilisé

pour regrouper les gènes par processus cellulaire.

Classification des gènes selon les profils d 'expression par regroupement

La mé"thode de groupement QT -clustering disponible avec le logiciel GeneSpring 6.1

(Silicon Genetics, Redwood City, CA, USA) a été utilisée pour tracer les profils

d'expression. Les profils ont été regroupés en tenant compte du coefficient de corrélation

« r » de Pearson de 0.9.

1.2 Résultats

1.2.1 Sélection des gènes différentiellement exprimés

1.2.1.1 Par les méthodes de normalisation MAS 5.0 et RMA

Une fois les intensités brutes extraites des biopuces et normalisées soit par la méthode

RMA ou la méthode MAS 5.0, l'équation 1 a été appliquée sur les données de RMA et

l'équation 2 sur celles de MAS 5.0 afin de sélectionner les produits de la transcription

différentiellement exprimés. En tout 308 produits de la transcription ont démontré une

régulation d'au moins 1.7 fois à au moins un des temps de traitement à l' E2 selon la

méthode de normalisation MAS 5.0. Cependant, conformément à la procédure

recommandée par MAS 5.0, il fallait que le « P value» associé aux valeurs d'intensité soit

inférieur à 0.04 i.e que le signal soit considéré présent. Ainsi, il semblait approprié de

retirer les produits de la transcription dont la valeur moyenne des intensités des sondes a

été classée absent. Ce sont des produits de la transcription situés sous le seuil fixé de

détection. Pour mieux comprendre le rejet des gènes absents voyons la Figure 5. Elle

représente la répartition des intensités brutes des produits de la transcription sur une

29

biopuce par rapport aux intensités brutes de ces mêmes produits de la transcription sur une

biopuce contrôle selon le classement des signaux absents ou présents.

Les gènes classés présents aux 7 temps de traitements (incluant le contrôle) sont au nombre

de 18,377 gènes. De même, 19,927 gènes absents ont été sélectionnés pour figurer dans ce

graphique, mais seulement les valeurs obtenues à 3 hrs ont été illustrées. Les lignes

extérieures et parallèles représentent les NF=+2.00 et NF=-2.00, et la ligne au centre

représente le NF=1.00.

A) Signaux classés absents

1000

100

.! 2 n ~ ·in

10 c .! oS

0.1 10 100 Intensité brute

.! 2 ..a ~ ·in c .! oS

1000

B) Signaux classés présents

10000

1000

100

100 1000 Intensité brute

10000

Figure 5. Exemple de la répartition des intensités brutes des produits de la transcription sur

une biopuce (temps de traitement à 3 hrs) par rapport aux intensités brutes de ces mêmes

produits de la transcription sur une biopuce contrôle selon le classement des signaux

présents (A) ou absents (B).

30

On voit que les intensités des sondes classées «absents» sont faibles, en bas de 100 unités

d' intensité pour la majorité donc, moins significatives que lorsque les intensités sont fortes.

Par contre, les produits de la transcription classés absents ont des NF plus élevés que les

gènes présents. Mais étant en majorité répartis dans les basses intensités les «absents» sont

beaucoup moins significatif que les présents. De plus, les signaux classés présents sont

mieux répartis et la majorité sont situés dans les fortes intensités (supérieurs à 100 unités

d' intensité). Les présents sont ainsi beaucoup plus significatifs que les signaux absents.

De plus, puisqu'un des objectifs de l' étude était d' établir des profils d' expression de gènes

régulés par la 17f3-estradiol sur une période de 24 heures, un « P value» significatif devait

s'appliquer sur les valeurs d' intensité aux 6 temps de traitement soit 1h, 3h, 6h, 12h, 18h,

et 24h, incluant les deux contrôles. En tout, 248 gènes ont démontré une régulation d'au

moins 1.7 fois à au moins un des temps de traitement à l 'E2 avec un« P value» significatif

à tous les temps. Parmi ceux-ci, 216 gènes avait une régulation d' au moins 2 fois. Par la

méthode de normalisation RMA, 403 gènes ont démontré une régulation d'au moins 1,59

fois à au moins un des temps de traitement à l'E2 alors que 179 gènes avait une régulation

d'au moins 2 fois. En combinant la sélection des gènes différentiellement exprimés par les

2 méthodes de normalisation, les profils d'expression d'un total de 274 produits de la

transcription ont été vérifiés par qRT -PCR.

1.2.1.2 Concordance des profils d'expression

Afin de mieux évaluer et visualiser la concordance des profils d'expression des méthodes

et ainsi définir une liste de gènes régulés par l'estradiol, chaque profil d'expression obtenu

par les méthodes de normalisation a été visuellement comparé a celui obtenu par qRT

PCR. La Figure 6 montre quelques exemples de concordance et de non-concordance entre

les courbes d' expression. La Figure 6A, montre un exemple de bonne concordance.

Les intensités sont fortes, entre 1000 et plus pour les biopuces et entre 105 et 106 copies/mg

RNA pour le qRT_PCR. Les courbes sont bien profilées et superposables. La Figure 6A à

droite (intensités faibles) montre que malgré un NF beaucoup plus faible à 6 heures

(courbe RMA) la tendance dans les profils d'expression est comparable.

!-

- ------------

31

La Figure 6B montre des profils de courbes similaires pour deux méthodes. Le premier

graphique, MAS 5.0 et RMA, montre des courbes parfaitement identiques. Si on en croit la

courbe du qRT_PCR, qui est très irrégulière, l ' état de ce gène alternerait successivement

entre la valeur du contrôle et une inhibition de 60%. Un autre essai de qRT_PCR aurait été

requis pour vérifier à nouveau le profil d' expression. L 'exemple au centre montre un des

nombreux cas où MAS 5.0 donne des NFs plus élevés que RMA, mais l' allure de la courbe

est similaire à celle du qRT_PCR. Bien que la courbe obtenue par RMA semble suivre la

tendance des 2 autres courbes, la variation de la régulation est moins visible avec RMA. À

l'extrême droite, il y a peu d ' exemple de ce genre, les NFs de RMA sont plus élevés que

ceux de MAS 5.0. Les NFs déterminés par MAS 5.0 sont d ' environ 1.30. Selon MAS 5.0

ce gène ne semble pas régulé au cours du temps. Figure 6C, bien que les valeurs

d'intensités normalisées et la quantification par qRT-PCR soient élevées dans les trois cas

(plus de 1000 pour les biopuces et 105 copies/mg RNA), on n ' observe aucune concordance.

La courbe de RMA montre des valeurs de NFs entre 0.89 et 1.07.

A) Concordance des profils d'expression par 3 méthodes

Intensités fortes 2,2 .------- -------,

1 3 6 12 18 24

Temps de traitement (heures)

1 ntensités faibles 10,2 ...-----------.,

_ 9,2

~ 8,2 '-' 7,2 c 6,2 ~ 5,2 ~ 4,2 6, 3,2

-G) 2,2 a: 1,2

0,2 +---...:r----r-- ----,.--....-----4 1 3 6 12 18 24


B) Concordance des profils d'expression par 2 méthodes

RMA- MAS 5.0 MAS 5.0 - qRTPCR 2,2 7,2

iL LL 6 ,2

~ ~ 5,2 c c 4,2 0

~ 1,2 0

~ 3,2 :; nJ 0)

:; 2,2 -G) ~ 1.2 a::: a:

c

0,2 0 ,2 1 3 6 12 18 24 1 3 6 12 18 24

Temps de traitement (heures) Temps de traitement (heures)

C) Aucune concordance

3,2 ...--- ----------.

LL ~ 2,2 p __ ~c

c .Q m :; 1,2

__ 0 -

t» -G)

a::: 0,2

1 3 6 12 18 24


qRTPCR

a MAS 5.0

-+- RMA

RMA-qRTPCR 3,2 .-------------:------,

iL ~ 2,2 c .Q 19 12 a --c

0-::l ' t»

-G)

a::: 0,2 t---,---y---.--.----r---r--....--i

1 3 6 12 18 24


32

Figure 6. Graphique représentant des exemples de concordance entre les méthodes.

Chacun représente un cas particulier qui met en évidence certains traits qui caractérisent les

méthodes.

Les profils d'expression de 108 produits de la transcription sont similaires et donc commun

aux 3 méthodes (2 méthodes de normalisation et la respective validation par qRT_PCR).

Toutefois, la révision des profils d'expression à l'aide des courbes de concordance et de

non-concordance, ont permis d'identifier d'autres produits de la transcription. Ainsi, 30

produits de la transcription s'ajoutent aux 108 précédent pour un total de 138 gènes. Ces

33

gènes sont dits confirmés par RMA ou MAS 5.0 si l' allure de la courbe suivait la même

tendance que la courbe obtenue en qRT_PCR. Bien que les valeurs de Nfs, étant la plupart

du temps plus grandes pour MAS 5.0, moins de gènes ont été rajoutés avec cette méthode,

et plus avec RMA.

1.2.2 Comparaison des méthodes de normalisation MAS 5.0 et RMA

La Figure 7 permet de comparer les valeurs d' expression en NF obtenus pour chacune des

trois méthodes par régression linéaire. Par exemple, en considérant les profils d'expression

(des 108 produits de la transcription) similaires entre les trois méthodes, on observe ainsi

que pour un même gène les modulations observées par qRT-PCR ont tendance à être plus

élevées que celles observées par RMA ou MAS 5.0. Pour chacun des 6 traitements, les

données en NF obtenues par chaque méthode ont été comparées. La moyenne des pentes à

été calculée. En comparant les données de qRT-PCR à celles de RMA et MAS 5.0, les

droites ont des pentes de 1.21 et 1.25 respectivement (Tableau la). Par contre, les valeurs

générées par RMA ont tendance à être inférieures à celles de MAS 5.0. La méthode RMA

donne des valeurs de NFs souvent plus faibles que celles de la méthode de MAS 5.0 et que

celles obtenues par qRT _PCR. Il est intéressant de noter que la corrélation (R2) est

meilleure entre MAS 5.0 et RMA, et assez faible si on compare chacune de ces méthodes

avec les qRT_PCRs (Tableau lb). Les NFs les plus élevés sont ceux des qRT_PCRs. La

méthode de normalisation RMA a généré plus de gènes exprimés de façon différentielle

que MAS 5.0. Cependant, ces gènes sont, pour la plupart, modulés entre 1,59 à 2,0 fois. De

plus, les profils d' expression obtenus par RMA ont été mieux confirmés que ceux obtenus

par MAS 5.0, avec un nombre plus important de gènes, 87.2% pour RMA contre 68.0%

pour MAS 5.0.

34

A) 10,0

8,0

LL ~~ 6,0 ct) .Q 0.. • -t- • ~~ s, CT 4,0 .Q) a::

2,0

2,0 4,0 6,0 8,0 10,0

MAS 5.0 Régulation (NF)

B) 10,0

8,0

LL ~~

6,0 ct) .Q 0.. • -t- • ~a:: 5, CT 4,0

.Q) a::

2,0

2,0 4,0 6,0 8,0 10,0

RMA Régulation (NF)

C) 10,0

8,0

LL ~ 6,0 c« :8~ ~~ ~ 4,0 C»

.Q) a::

2,0

2,0 4,0 6,0 8,0 10,0

MAS 5.0 Régulation (NF)

Figure 7. Régulation comparée entre les méthodes MAS 5.0, RMA et qRT_PCR au temps

de traitement 24h. Les NFs de chaque méthode sont disposés sur les axes « x» et «y».

-- ~~ - -~ -------- - --

35

A) Matrice des moyennes géométriques des coefficients de régression linéaires

qRT_PCR 1

RMA 1

MAS5

qRT_PCR 0,46 (0,16) 0,39 (0,19)

RMA 0,92 (0 ,02)

MAS5

B) Matrice des moyennes des pentes

qRT_PCR 1

RMA 1

MAS5

qRT_PCR 1,21 (0,17) 1,25 (0,22)

RMA 0,85 (0,04)

MAS5

Tableau 1. A) Matrice des moyennes géométriques des coefficients de régression linéaires

des droites. B) Matrice des moyennes des pentes. Les écarts moyens sont entre

parenthèses. Ces tableaux résument les données obtenues aux six temps de traitements.

1.2.3 Classification des gènes selon les profils d'expression

Au total 138 produits de la transcription ont été retenus. Il est important de mentionner

qu'un gène peut être représenté par plusieurs produits de la transcription ou ensembles de

sondes sur une biopuce reflètant peut-être la présence d'épissage alternatif du gène. Les

profils d ' expression des 138 produits de la transcription régulés par l' estradiol sont illustrés

à la figure 8. Selon leur profil de régulation, Il regroupements ont été faits. Dans le tableau

2, les produits de la transcription présents dans chaque regroupement sont indiqués ainsi

que la valeur maximale de la régulation en NF selon la valeur obtenue par la méthode de

normalisation RMA.

Dans le regroupement 1, à 3 hrs, 41 produits de la transcription ont été positivement

régulés. La plus forte modulation de l'ordre de 5.7 fois par rapport aux contrôles a été

observée par le gène eteI (cytosolic acyl-CoA thioesterasel). Ce gène agit à la fois dans le

- --- - ----------------------------------~

36

« métabolisme des lipides », le « métabolisme du coenzyme» et le « métabolisme acyl

CoA ». Dans ce regroupement, notons la présence du récepteur de la progestérone (PGR)

qui est modulé de 3.1 fois par rapport aux contrôles et le facteur 3 de la coagulation (F3)

qui est modulé de 4.3 fois.

Après 3 heures de traitement, 25 produits de la transcription sont inhibés dans le

regroupement 2. C'est dans ce regroupement qu'on observe les plus fortes modulations par

l'estradiol. En effet, le gène Myotubularin Related Protein 7 (Mtmr7) et le facteur de

transcription Foxal (Forkhead box Al) sont inhibés respectivement de 7.4 et 6.2 fois.

Parmis les autres gènes retrouvés dans ce regroupement notons le gène Ptprj (NF= -2.9),

qui encode une protéine tyrosine phosphatase exprimée au niveau des jonctions adhérentes,

responsable de l ' adhésion cellulaire et de l'inhibition de contact lors de la croissance

cellulaire; le récepteur de la prolactine (Prlr) et Fgfr2 (fibroblast growth factor receptor 2)

(NF= -2.6) très impliqué dans le développement de la glande mammaire. Un SNP dans

l'intron 2 de ce gène a récemment été identifié à une augmentation du risque de développer

un cancer du sein [42]. Également inclus le récepteur de la prostaglandine (Ptger3), le gène

Elovl6 impliqué dans l'élongation des acides à longues chaînes. Rsnl2 qui joue un rôle

important dans les interactions entre la membrane et les microtubules en prévenant la

polymérisation des microtubules et de l'antigène CD24a, responsable de l' adhésion

cellulaire et de l'interaction entre les cellules en différentiation et la matrice cellulaire. Les

gènes stimulés à 3 heures semblent favoriser la motilité cellulaire et l'adhésion, les

jonctions entre les cellules et la matrice.

Dans le regroupement 3, il n'y a pratiquement que des gènes en rapport avec le tissu

musculaire. En plus de la myotilin impliquée dans l'organisation du sarcomère et

l' amoncellement d' actine, on retrouve, dans ce regroupement de gènes stimulés à 6hrs par

l'estradiol, troponin, tropomyosin, myosin, la créatine kinase (Ckm) et la glycogène

phosphorylase musculaire (Pygm).

Cl) ,Cl) Cf)

ro E ~

0 c 2 °w c Cl)

C

Cl) ,Cl)

o~ ro

100

10

0.1 1

100

E 10 ~

o c 2 °w c Cl) ë

0.1 ,-, 1

Regroupement 1 (n=41)

, 3 6 12 24



,-- --

3 6 12 18 24




Cl) ' Cl) o~ ro E 0 c 2 °w c Cl) ....

.E:

Cl) ' Cl) o~ ro

100

10

0.1

100


, -- , 1 3 6 12 18 24



E 10 ~

o c

,Cl) .... °w c Cl) .... c

Cl) 'Cl) o~ ro E ~

o c 2 °w c Cl) .... c

0.1 J r-T_..---....------,.--1 3 6 12 18 24



100 -

10 1

24 O. 1 , , - - ,- - ---1

1 3 6 12 18


37


100

10

1 ,~~ oJ~ i

1 3 6 12 18 24



100

!

10 1 1

, 1

~--~' ~" ~i=-~~==~ 1

0 .1 .J ,..-,,.--,-, --,------r, - --...,-, -------i 24 3 6 12 18



0.1 ...J r-- '.---__ ~--

1 3 6 12 18 24


38


100

10

0.1 .J ,..-,_..------,..---.......---- --.----

1 3 6 12 18 24



100

10

0.1 .J ,..-,,.--,-, - .... ,----,-----,-, ------,

3 6 12 18 24


Figure 8. Profils d'expression des gènes régulés par l'E2. Les courbes d'intensité (en

valeurs logarithmiques) en fonction du temps permettent de classer les gènes selon la

similitude de leur degré d'expression sur une période de 24 heures.

39

Tableau 2: Classification par profils d'expression des 138 produits de la transcription confirmés par gRT-PCR

Numéro des ensembles de sondes

Symbole des gènes Description

Regroupement 1: Régulation positive à 3 hrs 1449065_at 1422997 s at 1439527- at 1438394=x_at 1448290 at 1417408=at 1418818 at 1439699=at 1452166 a at 1455531- at 1417047=at 1439568 at 1457823=at 1438133 a at 1438840- x - at 1433923=at 1431214 at 1424211=at 1450716 at 1420904=at 1422460 at 1420905=at 1428484_at 1419282 at 1417273=at 1418252 at 1437277- x at 1423506=a= at 1416686 at 1435105=at 1429024 at 1427352=at 1428926 at 1428758=at 1450259_a_at 1433907 at 1416225=at 1434089_at 1460230_at 1417860_a_at 1422571_at

Cte1 Cte1/Mte1 BB114106

Krt2-4 Pap F3

Aqp5 PÇJr

Krt1-10 A930031 D07Rik

Prom2 Greb1 Cyr61 Cyr61 Apoa1

4732484G22Rik LOC433762

5730438N18Rik Adamts 1

1117r Mad211

1117r Osbpl3 Ccl12 Pdk4 Padi2 Tgm2 Nnat Plod2

1110061 N23Rik 1110018J23Rik

BC031593 1110003008Rik 1810054013Rik

Stat5a Pknox2 Adh1 Synpo Syn2

Spon2 Thbs2

cytosolic acyl-CoA th ioesterase 1 cytosolic and mithoncondria l acyl-CoA thioesterase 1

expressed sequence BB 114106 keratin complex 2, basic, gene 4 pancreatitis-associated protein

coagulation factor III aquaporin 5

ProÇJesterone receptor (PÇJr) , mRNA keratin complex 1, acidic, gene 10 RIKEN cDNA A930031D07 gene

prominin 2 gene regulated by estrogen in breast cancer protein

cysteine rich protein 61 cysteine rich protein 61

apolipoprotein A-I RIKEN cDNA 4732484G22 gene/similar to keratin 1 b

similar to Retrovirus-related POL polyprotein (Endonuclease) RIKEN cDNA 5730438N 18 gene

a disintegrin-like and metalloprotease with thrombospondin type 1 motif, 1 interleukin 17 receptor

MAD2 (mitotic arrest deficient, homolog)-like 1 (yeast) interleukin 17 receptor

oxysterol binding protein-like 3 chemokine (C-C motif) ligand 12

pyruvate dehydrogenase kinase, isoenzyme 4 peptidyl arginine deiminase, type Il transglutaminase 2, C polypeptide

neuronatin procollagen lysine, 2-oxoglutarate 5-dioxygenase 2

RIKEN cDNA 1110061 N23 gene RIKEN cDNA 1110018J23 gene

cDNA sequence BC031593 RIKEN cDNA 1110003008 gene RI KEN cDNA 1810054013 gene

signal transducer and activator of transcription 5A Pbx/knoUed 1 homeobox 2

alcohol dehydrogenase 1 (class 1) synaptopodin

synapsin Il spondin 2, extracellular matrix protein

thrombospondin 2

Regroupement 2: Régulation négative à 3 hrs 1447831 s at 1418496=at 1434553_at 1425452_s_at 1449369 at 1436555- at 1420847=a_at 1419154 at 1448556=at 1441102_at 1437397 _at 1417441_at 1450344 a at 1417623=at 1417403 at 1448780=at 1445546 at 1436203=a_at 1422582_at 1417622_at 1427278_at 1416034_at 1459749_s_at 1427025_at 1451606 at

Mtmr7 Foxa1

Tmem56 AW125753/Ptprj

Tmprss2 SIc7a2 Fgfr2

Tmprss2 Prlr

AI987712 AI987712 Dnajc12 Ptger3

SIc12a2 Elovl6

SIc12a2

1110059G02Rik Lep

SIc12a2 Rsnl2 Cd24a Fat4

Mtmr7 A530016L24Rik

myotubularin related protein 7 forkhead box A 1

transmembrane protein 56 expressed sequence/protein tyrosine phosphatase, receptor type, J

transmembrane protease, serine 2 solute carrier family 7 (cationic ami no acid transporter, y+ system), 2

fibroblast growth factor receptor 2 transmembrane protease, serine 2 Mus musculus prolactin receptor expressed sequence AI987712 expressed sequence AI987712

DnaJ (Hsp40) homolog, subfamily C, member 12 prostaglandin E receptor 3 (subtype EP3)

solute carrier family 12, member 2 ELOVL family member 6, elongation of long chain fatty acids (yeast)

solute carrier family 12, member 2 Mus musculus BAC clone RP23-21016 from chromosome 3.

RIKEN cDNA 111 0059G02 gene leptin

solute carrier family 12, member 2 restin-like 2

CD24a antigen FAT tumor suppressor homolog 4 (Drosophila)

myotubularin related protein 7 RIKEN cDNA A530016L24 gene

Régulation selon RMA (NF)

3hrs 5,7 5,6 5,4 5,0 4,6 4,3 3,6 3,1 3,1 3,0 2,9 2,7 2,6 2,6 2,5 2,4 2,1 2,2 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,9 1,9 1,9 1,9 1,9 1,9 1,8 1,8 1,8 1,8 1,7 1,6 1,6 1,6 1,6

3 hrs -7,4 -6,2 -4,7 -2 ,9 -2,8 -2,7 -2,6 -2,4 -2,4 -2,3 -2,2 -2,0 -1 ,9 -1,9 -1,8 -1,7 -1,7 -1,7 -1,7 -1,7 -1,6 -1 ,6 -1,6 -1 ,6 -1 ,5

- --------------

40

Numéro des Symbole des Régulation selon RMA ensembles Description

de sondes gènes (NF)

Regroupement 3: Régulation positive à 6 hrs 6 hrs 1417889_at Apobec2 apolipoprotein B editing complex 2 3,4 1418155 at Myot myotilin 3,0 1427445- a at Ttn titin 2,7 1423145=a=at Tcap titin-cap 2,6 1416889 at Tnni2 troponin l, skeletal, fast 2 2,5 1427735 - a at Acta1 actin , alpha 1, skeletal muscle 2,5 1457435=x=at Myom2 myomesin 2 2,5 1417464_at Tnnc2 troponin C2, fast 2,5 1449577 x at Tpm2 tropomyosin 2, beta 2,4 1452651- a- at Myl1 myosin, Iight polypeptide 1 2,4 1417653=at Pvalb parvalbumin 2,3 1419312 at Atp2a1 ATPase, Ca++ transporting, cardiac muscle, fast twitch 1 2,3 1417614=at Ckm creatine kinase, muscle 2,3 1455736 at Mybpc2 myosin binding protein C, fast-type 2,3 1417951- at En03 enolase 3, beta muscle 2,2 1450118=a_at Tnnt3 troponin T3, skeletal , fast 2,2 1418677 at Actn3 actinin alpha 3 2,1 1427306=at Ryr1 ryanodine receptor 1, skeletal muscle 2,1 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1418373_at Pgam2 phosphoglycerate mutase 2 2,1 1448602 at pygm muscle glycogen phosphorylase 2,1 1436867- at Sri sarcalumenin 2,0 1422598=at Casq1 calseq uestrin 1 1,9 1418062_at Eef1a2 eukaryotic translation elongation factor 1 alpha 2 1,6

Regroupement 4: Régulation positive à 6 hrs et à 24 hrs 6 hrs 24 hrs 1427868_x_at Myh1 myosin, heavy polypeptide 1, skeletal muscle, adult 6,0 6,1 1425153 at Myh2 myosin, heavy polypeptide 2, skeletal muscle, adult 5,0 3,9 1451203=at Mb myoglobin 3,1 2,8 1436332 at Hspb6 heat shock protein, alpha-crystallin-related, B6 2,5 2,1 1448394=at Myl2 myosin, Iight polypeptide 2, regulatory, cardiac, slow 2,4 1,8 1428722 at Ckmt2 creatine kinase, mitochondrial 2 2,0 1,6 1429783- at Pdlim5 POZ and LlM domain 5 1,6 1,5 1418370=at Tnnc1 troponin C, cardiac/slow skeletal 1,7 1,3 1448756 at S100a9 S100 calcium binding protein A9 (calgranulin B) 1,8 1,1 1418979=at 9030611 N15Rik RIKEN cONA 9030611N15 gene 2,1 1,0 1419549_at Arg1 arginase 1, liver 2,5 -1 ,2

Regroupement 5: Régulation positive à 1 hr 1 hr 1436814_at Mammary cancer associated protein rmt-1 homolog [Rattus norvegicus] 3,4 1416129 at Errfi1 ERBB receptor feedback inhibitor 1 3,1 1453851=a_at Gadd45g growth arrest and DNA-damage-inducible 45 gamma 3,1 1419816 s at Errfi1 ERBB receptor feedback inhibitor 1 2,8 1416576=at Socs3 suppressor of cytokine signaling 3 2,0 1434227 at Kdap keratinocyte differentiation-associated protein 2,0 1456212=x_at Socs3 suppressor of cytokine signaling 3 1,8 1452160 at Tiparp TCOO-inducible poly(ADP-ribose) polymerase 1,8 1434153=at Shb src homology 2 domain-containing transforming protein B 1,2

Regroupement 6: Régulation positive à 3 hrs, 6 hrs et 12 hrs 3 hrs 6 hrs 12 hrs 1421404 at Cxcl15 chemokine (C-X-C motif) ligand 15 1,2 3,5 2,9 1438654- x at Mmd2 monocyte to macrophage differentiation-associated 2 3,2 3,4 2,3 1454903=at Ngfr nerve growth factor receptor (TNFR superfamily, member 16) 2,1 2,6 1,8 1419015 at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 2,1 1,3 1417290=at Lrg1 leucine-rich alpha-2-glycoprotein 1 1,3 1,8 2,0 1429379 at Xlkd1 extra cellular link domain-containing 1 1,3 1,8 2,0 1453128=at Xlkd1 extra cellular Iink domain-containing 1 1,3 1,7 1,9 1423544_at Ptpn5 protein tyrosine phosphatase, non-receptor type 5 1,6 1,6 1,3

Regroupement 7: Régulation positive à 12 hrs et 18 hrs 12 hrs 18 hrs 1437578_at Clca2 chloride channel calcium activated 2 4,1 3,5 1419524 at Tph1 tryptophan hydroxylase 1 3,4 2,2 1419463=at Clca2 chloride channel calcium activated 2 2,6 2,5 1420647 _a_at Krt2-8 keratin complex 2, basic, gene 8 2,6 1,8 1460259 s at Clca1/Clca2 chloride channel calcium activated 1 and 2 2,3 2,2 1450407 =a=at Anp32a acidic (leucine-rich) nuclear phosphoprotein 32 family, member A 2,1 1,4 1417852_x_at Clca1 chloride channel calcium activated 1 1,9 1,8 1448169_at Krt1-18 keratin complex 1, acidic, gene 18 1,7 1,4

Numéro des ensembles de sondes

Symbole des gènes

Regroupement 8: Régulation négative à 6hrs 1435663_at Esr1 1416025_at Fgg 1460591_at Esr1 1438665_at Smpd3 1437019_at 2200001115Rik

Regroupement 9: Régulation positive à 3hrs et 6 hrs

Description

estrogen receptor 1 (alpha) fibrinogen, gamma polypeptide

estrogen receptor 1 (alpha) sphingomyelin phosphodiesterase 3, neutral

RIKEN cDNA 2200001115 gene

1418197_at Ucp1 uncoupling protein 1, mitochondrial 1444505_at Rai17 retinoic acid induced 17 1420913_at SIco2a1 solute carrier organic anion transporter family , member 2a1

Regroupement 10: Régulation négative à 6hrs et régulation positive à 18hrs 1418287 _a_at Dmbt1 deleted in malignant brain tumors 1 1419082_at Serpinb2 serine (or cysteine) proteinase inhibitor, clade B, member 2 1424351_at Wfdc2 WAP four-disulfide core domain 2

Regroupement 11: Régulation positive à 18 hrs 1438448_at Otop1 otopetrin 1

41

Régulation selon RMA (NF)

6 hrs -3,0 -2,4 -2,0 -1 ,9 -1 ,4

3 hrs 2,1 1,7 1,6

6 hrs -1 ,7 -1 ,1 -1 ,7

18 hrs 1,6

6 hrs 1,9 1,3 1,6

18 hrs 2,6 1,2 1,0

*Pour simplifier le tableau, seuls les NF obtenus selon RMA ont été indiqués. Cependant, les NF correspondants obtenus selon MAS 5.0 sont généralement supérieurs.

Le regroupement 4 inclut des gènes positivement régulés à 6 heures et 24 heures. Les

gènes encodant la myosine Myh1 et Myh2 ont été fortement régulés à 6 ms et 24 hrs de

même que le gène de la myoglobine (Mb). Le Riken 9030611N15Rik, son rôle est encore

mal caractérisé, est homologue à 87% avec la 3alpha-HSD 1. Il est plus stimulé à 6 heures

qu'à 24 heures.

Avec un NF de 3,4, le gène Mammary cancer associated protein (Rmt1) est le plus modulé

du regroupement 5. TCDD-inducible poly polymerase ADP-ribose (Tiparp) associé au

polluant environnemental TCDD. En lien avec le sentier Ras-ERK, le gène ErBB receptor

feedback inhibitor 1 (Errfi 1) est stimulé à 1 hr. Il est le deuxième gène le plus stimulé soit

de 3,1 et 2,8 fois par rapport contrôle pour les sondes 1416129_at et 1419816_s_at

respectivement. Ce gène agit sur les familles de récepteurs ERBB et EGFR. Son inhibition

provoque la stimulation des cellules épithéliales normales de la glande mammaire [43], et

serait un gène d'expression immédiat dans les pré-adipocytes [44].

- -----_.- ---- ----- - --------------

42

Le regroupement 6 se caractérise par une régulation positive à 3 hrs qui semble s'accentuer

ou se maintenir à 6hrs et 12hrs. Les principaux gènes retrouvés dans ce regroupement sont

la chimiokine Cxcl15 responsable, entre autres, de la migration des neutrophiles, le gène

monocyte to macrophage differentiation-asssociated 2 (Mmd2), Ptpn5, une protéine

tyrosine phosphatase, le gène Wisp2, inductible par la signalisation Wntl , liant le calcium

et deux autres gènes impliqués dans l'adhésion cellulaire: Xlkd 1, et Lrg 1 une glycoprotéine

riche en leucine.

La régulation par l' estradiol des gènes impliqués dans les regroupements 8, 9, 10 et Il est

plus faible que celle retrouvée dans les autres regroupements et implique peu de gènes.

1.2.4 Classification des gènes par processus biologiques

Basés sur la nomenclature de GeneOntology, les 138 produits de la transcription ont été

regroupés par processus cellulaire. Ces processus cellulaires ont ensuite été ordonnés par

ordre d'importance à l'aide d'un indice calculé (z score). La Figure 9 représente les

processus cellulaires classés par le «z score» en fonction du temps de traitement.

Rappelons que la valeur du « z score» dépend de l'écart entre le nombre de gènes modulés

et le nombre de gènes mesurés sur la biopuce. Un même gène peut appartenir à plus d'un

processus. Le fait qu'un transcrit soit dans un processus ayant un «z score» non

significatif «1,96) n'exclu pas qu'il soit fortement modulé.

Après 1 heure de traitement à l'estradiol, la valeur élevée du « z score» montre qu'il y a 3

processus biologiques majeurs impliqués. La «contraction musculaire», le «développement

musculaire» et la «motilité cellulaire». Les deux premiers processus sont un peu moins

importants à 18 et 24 heures, avec la modulation des gènes tropomyosin, troponin,

ryanodine receptor, calsequestrin, et myosin. Pour la motilité cellulaire, la plupart des

gènes qui sont modulés à 1 hr réapparaissent à 12 et à 18 heures.

Le métabolisme des coenzymes et de l'acyl-CoA à 1 heure, fait place au métabolisme des

lipides et celui des acides gras à 3 heures, alors que le catabolisme des sucres est en

évidence à 6 heures, et le métabolisme des acides aminés à 12 heures. Le seul gène associé

43

au métabolisme de l'acyl-CoA est le gène Cytosolic-CoA thioesterase 1 (Cte1), il est co

régulé avec le gène Pyruvate dehydrogenase kinase, isoenzyme 4 (Pdk4) dans le

métabolisme du coenzyme.

Les gènes régulateurs de la croissance cellulaire se mettent en place dès le départ à partir

d ' une heure de traitement, mais la croissance épithéliale et cellulaire et la régulation de

l ' adhésion cellulaire sont évidentes qu' après 3 heures de traitement. Après cette phase de

croissance à 3 heures, 1 'homéostasie semble nécessaire puisque le transport des ions est un

processus qui devient plus significatif. Ensuite on assiste à une réorganisation du

cytosquelette de la glande mammaire à 6 heures. Les chemokines (processus « réponses

aux blessures ») se manifestent aussi à ce moment ainsi qu'un gène Gadd45g (growth

arrest and DNA-damage-inducible), qui atteint son maximum à 3 heures puis diminue à 6

heures et n'est plus modulé par la suite. En résumé de ces 2 gènes, une phase de croissance

à 3 heures et après réarrangement du cytosquelette à 6 heures. Après la chute de la

régulation de l'ARNm du récepteur de l'E2 à 6 heures, la croissance est grandement

affectée. Les deux seuls processus qui demeurent significatifs vers la fin du profil

d'expression soit après 12, 18 et 24 heures de traitement, impliquent des gènes en rapport

avec la contraction et le développement musculaire.

A) Temps de traitement: 1 hr B) Temps de traitement: 3hrs

D) Temps de traitement: 12 hrs E) Temps de traitement: 18 hrs

28

1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18 19 20

contraction musculaire développement musculaire motilité cellulaire métabolisme de l'acyl-CoA organogenèse

5

régulation de la croissance cellulaire organisation du cytosquelette et biogenèse métabolisme du coenzyme régulation de processus biologiques régulation de r absorption du cholestérol régulation de l'adhésion cellulaire régulation de la différentiation des cellules épithéliales régulation de la contraction musculaire régulation de la différentiation cellulaire métabolisme des lipides métabolisme des stéroïdes processus physiologiques de r organisme transport des ions sodium régulation des processus cellulaires différenciation cellulaire

21 22 23 24 25 26 27 28 29 30 31 32

33 34 35

C) Temps de traitement: 6 hrs

F) Temps de traitement: 24 hrs

32

métabolisme des acides gras activation des lymphocytes métabolisme des acides organiques transport des anions réponse de défense adhésion ceUulaire transport des chlorures catabolisme des sucres transport des ions réponses aux blessures hématopoïèse énergie dérivée par l'oxydation des composés organiques métabolisme des acides aminés apoptose métabolisme de la phosphocréatine

44

Figure 9. Représentation du Tableau 2 montrant les proportions entre les diverses valeurs

de « z score» pour chaque processus cellulaire. Plus la zone est importante, plus la valeur

de « z score » est élevée.

45

Tableau 3 : Classification des gènes par processus biologiques selon Gene Ontology en fonction du « z score» et du temps de traitement

Numéro des Symbole Temps de traitement

ensembles des Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs de sondes gènes (NF) (NF) (NF) (NF) (NF) (NF)

contraction musculaire z score= 35,70 11,39 25,83 <1,96 32,93 35,95 1427B6B_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1 ,9 6,0 -1 ,B 6,1 1427445_a_at Ttn titin 1,7 2,7 1,B 2,2 1416BB9_at Tnni2 troponin l, skeletal , fast 2 1,9 1,6 2,5 1,B 1,9 1427735_a_at Acta1 actin , alpha 1, skeletal muscle 1,7 2,5 1,B 2,1 1457435_x_at Myom2 myomesin 2 2,5 2,2 1417464_at Tnnc2 troponin C2 , fast 2,0 1,7 2,5 2,0 1,9 1449577 _x_at Tpm2 tropomyosin 2, beta 1,B 2,4 1,7 1,9 1419312_at Atp2a1 ATPase, Ca++ transporting, fast twitch 1 1,B 1,6 2,3 1,B 1,9 1455736_at Mybpc2 myosin binding protein C, fast-type 2,0 1,B 2,3 1,9 2,0 145011B_a_at Tnnt3 troponin T3, skeletal , fast 1,B 2,2 1,9 1,9 1418677 _at Actn3 actinin alpha 3 1,9 1,6 2,1 1,9 1,7 1427306_at Ryr1 ryanodine receptor 1, skeletal muscle 1,7 2,1 1,7 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 1,6 142259B_at Casq1 calsequestrin 1 1,6 1,9 1,6 1,6 141B370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7

2 développement musculaire z score= 22,23 5,86 20,88 <1,96 22,23 29,23 1427B6B_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1 ,9 6,0 -1 ,B 6,1 1451203_at Mb myoglobin 3,1 2,B 1423145_a_at Tcap titin-cap 2,6 1,B 1416BB9_at Tnni2 troponin l, skeletal, fast 2 1,9 1,6 2,5 1,B 1,9 1427735_a_at Acta1 actin, alpha 1, skeletal muscle 1,7 2,5 1,B 2,1 1457435_x_at Myom2 myomesin 2 2,5 2,2 1417464_at Tnnc2 troponin C2, fast 2,0 1,7 2,5 2,0 1,9 144B394_at Myl2 myosin, light polypeptide 2, regulatory, cardiac 2,4 1,B 1449577 _x_at Tpm2 tropomyosin 2, beta 1,B 2,4 1,7 1,9 1452651_a_at Myl1 myosin, light polypeptide 1 1,B 2,4 1,9 1,9 1417653_at Pvalb parvalbumin 2,0 1,7 2,3 2,0 1,7 145011B_a_at Tnnt3 troponin T3, skeletal, fast 1,B 2,2 1,9 1,9 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 1,6 142259B_at Casq1 calsequestrin 1 1,6 1,9 1,6 1,6 141B370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7

3 motilité cellulaire z score= 19,80 6,96 15,94 3,99 19,80 <1,96 1427B6B_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1,9 6,0 -1 ,B 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 2,9 1,7 1427445_a_at Ttn titin 1,7 1,B 2,7 1,B 1454903_at Ngfr nerve growth factor receptor, member 16 2,6 1,B 1416BB9_at Tnni2 troponin l, skeletal, fast 2 1,9 1,6 2,5 1,B 1427735_a_at Acta1 actin , alpha 1, skeletal muscle 1,7 2,5 1,B 1457435_x_at Myom2 myomesin 2 2,5 1417464_at Tnnc2 troponin C2, fast 2,0 1,7 2,5 2,0 1449577 _x_at Tpm2 tropomyosin 2, beta 1,B 2,4 1,7 1419312_at Atp2a1 ATPase, Ca++ transporting, fast twitch 1 1,B 1,6 2,3 1,B 1455736_at Mybpc2 myosin binding protein C, fast-type 2,0 2,3 1,9 145011B_a_at Tnnt3 troponin T3, skeletal, fast 1,B 2,2 1,9 141B677 _at Actn3 actinin alpha 3 1,9 1,6 2,1 1,9 1427306_at Ryr1 ryanodine receptor 1, skeletal muscle 1,7 2,1 2,1 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 142259B_at Casq1 calseq uestrin 1 1,6 1,9 1,6 141B370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7

4 métabolisme de l'acyl-CoA z score= 14,51 <1,96 9,08 <1,96 <1,96 <1,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 2,3 2,5 1422997 _s_at Cte1/Mte1 cytosolic and mitochon acyl-CoA thioesterase 1 2,0 2,2

46

Numéro des Symbole

Temps de traitement ensembles

des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs

de sondes (NF) (NF) (NF) (NF) {NF} {NF}

5 organogénèse z score= 9,14 3,84 8,47 <1,96 9,14 10,00 1427868_x_at Myh1 myosin , heavy polypeptide 1, skel muscle, adult -1 ,9 6,0 -1 ,8 6,1 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 1,7 1451203_at Mb myoglobin 3,1 1423145_a_at Tcap titin-cap 2,6 1,8 1454903_at Ngfr nerve growth factor receptor, member 16 2,1 2,6 1416889_at Tnni2 troponin l, skeletal , fast 2 1,9 1,6 2,5 1,8 1,9 1427735_a_at Acta1 actin , alpha 1, skeletal muscle 1,7 2,5 1,8 2,1 1457435_x_at Myom2 myomesin 2 2,5 1417464_at Tnnc2 troponin C2 , fast 2,0 1,7 2,5 2,0 1,9 1448394_at Myl2 myosin , light polypeptide 2, regulatory , cardiac 2,4 1,8 1449577 _x_at Tpm2 tropomyosin 2, beta 1,8 2,4 1,7 1452651_a_at Myl1 myosin, light polypeptide 1 1,8 2,4 1,9 1417653_at Pvalb parvalbumin 2,0 1,7 2,3 2,0 1,7 1450118_a_at Tnnt3 troponin T3, skeletal, fast 1,8 2,2 1,9 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 1,6 1422598_at Casq1 calsequestrin 1 1,6 1,9 1,6 1,6 1418370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 3,1 2,3 1,7 1420847 _a_at Fgfr2 fibroblast growth factor receptor 2 -2,6 -2,0 1457823_at Cyr61 cysteine rich protein 61 1,9 2,6 1422582_at Lep leptin -1 ,7 1438448_at Otop1 otopetrin 1 1,6

6 régulation de la croissance cellulaire z score= 5,53 3,72 <1,96 <1 ,96 <1,96 <1,96 1456212_x_at Socs3 suppressor of cytokine signaling 3 1,8 1457823_at Cyr61 cysteine ri ch protein 61 1,9 2,6 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7

7 organisation du cytosquelette et biogènése z score= 5,37 <1,96 <1,96 2,92 5,37 6,07 1427868_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1,9 -1 ,8 6,1 1425153_at Myh2 myosin, heavy polypeptide 2, skel muscle, adult 3,9 1427735_a_at Acta1 actin, alpha 1, skeletal muscle 1,7 1,8 2,1 1452651_a_at Myl1 myosin, light polypeptide 1 1,8 1,9 1,9 1448394_at Myl2 myosin, light polypeptide 2, regulatory , cardiac 1,8 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 2,0 1,6 1452166_a_at Krt1-10 keratin complex 1, acidic, gene 10 2,4 1420647 _a_at Krt2-8 keratin complex 2, basic, gene 8 2,6 1,8 1448169_at Krt1-18 keratin complex 1, acidic, gene 18 1,7

8 métabolisme du coenzyme z score= 4,97 3,17 <1,96 <1,96 <1,96 <1,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 2,3 5,7 1422997 _s_at Cte1/Mte1 cytosolic and mitochon acyl-CoA thioesterase 1 2,0 5,6 1417273_at Pdk4 pyruvate dehydrogenase kinase, isoenzyme 4 1,7 2,0

9 régulation de processus biologiques z score= 2,92 4,20 <1,96 <1,96 <1,96 <1,96 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 3,1 2,3 1457823_at Cyr61 cysteine rich protein 61 1,9 2,6 1456212_x_at Socs3 suppressor of cytokine signaling 3 1,8 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1422582_at Lep leptin -1,7 1450259_a_at Stat5a signal transducer & activator of transcription 5A 1,8 1441102_at AI987712 expressed sequence AI987712 -2,3

10 régulation de l'absorption du cholestérol z score= <1,96 14,68 <1,96 <1,96 <1,96 <1,96 1438840_x_at Apoa1 apolipoprotein A-I 2,5 1422582_at Lep leptin -1,7

11 régulation de l'adhésion cellulaire z score= <1,96 10,28 <1,96 <1,96 <1,96 <1,96 1450259_a_at Stat5a signal transducer & activator of transcription 5A 1,8 1441102_at AI987712 Expressed sequence AI987712 -2,3

47

Numéro des Symbole

Ternes de traitement ensembles

des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs de sondes (NF) {NF) {NF) (NF) (NF) (NF)

12 régulation de la différentiation des cellules épithéliales z score= <1,96 10,28 <1,96 <1 ,96 <1 ,96 <1 ,96 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1441102_at AI987712 expressed sequence AI987712 -2 ,3

13 régulation de la contraction musculaire z score= <1,96 9,16 <1 ,96 <1,96 <1 ,96 <1 ,96 1417464_at Tnnc2 tropon in C2 , fast 1,7 1416889_at Tnni2 troponin l, skeletal, fast 2 1,6 1419312_at Atp2a1 ATPase, Ca++ transporting , fast twitch 1 1,6

14 régulation de la différentiation cellulaire z score= <1,96 8,75 <1,96 <1 ,96 <1 ,96 <1 ,96 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1422582_at Lep leptin -1 ,7 1441102_at AI987712 expressed sequence AI987712 -2 ,3

15 métabolisme des lipides z score= <1,96 5,62 <1,96 <1 ,96 <1 ,96 <1 ,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 5,7 1422997 _s_at Cte/Mte1 cytosolic et mitochondrial 5,6 1438840_x_at Apoa1 apolipoprotein A-I 2,5 1454903_at Ngfr nerve growth factor receptor, member 16 2,1 1428484_at Osbpl3 oxysterol binding protein-like 3 2,0 1416225_at Adh1 alcoho l dehydrogenase 1 (class 1) 1,7 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1422582_at Lep leptin -1 ,7 1417403_at Elovl6 ELOVL family member 6 -1 ,8

16 métabolisme des stéroids z score= <1,96 4,59 <1,96 <1,96 <1,96 <1,96 1422582_at Lep leptin -1 ,7 1428484_at Osbpl3 oxysterol binding protein-like 3 2,0 1438840_x_at Apoa1 apolipoprotein A-I 2,5

17 processus physiologiques de l'organisme z score= <1,96 4,20 <1,96 2,65 <1 ,96 <1 ,96 1448290_at Pap pancreatitis-associated protein 4,6 1438840_x_at Apoa1 apolipoprotein A-I 2,5 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3 1419282_at Ccl12 chemokine (C-C motif) ligand 12 2,0 1434153_at Shb src homol 2 domain-containing transf prot B 1,8 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1460230_at Syn2 synapsin Il 1,60 1422582_at Lep leptin -1 ,7 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,9 1441102_at AI987712 expressed sequence AI987712 -2,3 1416025_at Fgg fibrinogen, gamma polypeptide -2,4 1419524_at Tph1 tryptophan hydroxylase 1 3,4 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 2,9

18 transport des ions sodium z score= <1,96 4,14 3,56 <1,96 <1,96 <1 ,96 1417622_at SIc12a2 solute carrier family 12, member 2 -1,7 -1,4 1436239_at SIc5a5 solute carrier family 5, member 5 1,7 2,0

19 régulation des processus cellulaires z score= <1,96 3,84 <1,96 <1,96 <1,96 <1,96 1457823_at Cyr61 cysteine rich protein 61 2,6 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1422582_at Lep leptin -1 ,7 1441102_at AI987712 expressed sequence AI987712 -2,3

20 différenciation cellulaire z score= <1,96 3,50 <1,96 <1,96 <1,96 <1,96

1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3

1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1422582_at Lep leptin -1 ,7 1441102_at AI987712 expressed sequence AI987712 -2,3

48

Numéro des Symbole

Ternes de traitement ensembles

des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs de sondes (NF) (NF) (NF) (NF) (NF) (NF)

21 métabolisme des acides gras z score= <1,96 3,25 <1,96 <1 ,96 <1,96 <1 ,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 5,7 1422997 _s_at Cte1-Mte1 cytosolic et mitochon acyl-CoA thioesterase 1 5,6 1417403_at Elovl6 ELOVL family member 6 -1 ,8

22 activation des lymphocytes z score= <1,96 3,10 <1,96 <1,96 <1 ,96 <1 ,96 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3 1434153_at Shb src homol 2 domain-containing transform prot 8 1,8

23 métabolisme des acides organiques z score= <1,96 3,00 <1,96 2,72 <1 ,96 <1 ,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 5,7 1422997 _s_at Cte1/Mte1 cytosolic and mitoch acyl-CoA thioesterase 1 5,6 1417273_at Pdk4 pyruvate dehydrogenase kinase, isoenzyme 4 1,9 1422582_at Lep leptin -1 ,7 1417403_at Elovl6 ELOVL family member 6 -1 ,8 1419524_at Tph1 tryptophan hydroxylase 1 3,4 1419549_at Arg1 arginase 1, liver -1 ,7

24 transport des anions z score= <1,96 2,76 6,78 <1,96 <1,96 <1 ,96 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,9 -1 ,8 1417622_at SIc12a2 solute carrier family 12, member 2 -1 ,7 -1,4 1460259_s_at Clca1/Clca2 chloride channel calcium activated 1 et 2 -1 ,3 1417852_x_at Clca1 chloride channel calcium activated 1 -1 ,2 1420913_at SIco2a1 solute carrier organic anion transporter fa 2a1 1,6

25 réponse de défense z score= <1,96 2,55 <1,96 <1,96 <1,96 <1 ,96 1448290_at Pap pancreatitis-associated protein 4,6 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3 1419282_at Ccl12 chemokine (C-C motif) ligand 12 2,0 1434153_at Shb src homol 2 domain-containing transform prot 8 1,8 1416034_at Cd24a CD24a antigen -1 ,6 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,9

26 adhésion cellulaire z score= <1,96 2,28 <1,96 <1 ,96 <1 ,96 <1 ,96 1448290_at Pap pancreatitis-associated protein 4,6 1457823_at Cyr61 cysteine rich protein 61 2,6 1450259_a_at Stat5a signal transducer & activator of transcription 5A 1,8 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1441102_at AI987712 expressed sequence AI987712 -2,3

27 transport des chlorures z score= <1,96 <1,96 6,32 9,85 6,83 <1,96 1460259_s_at Clca 1 /Clca2 chloride channel calcium activated 1 and 2 -1,4 2,3 2,2 1417852_x_at Clca1 chloride channel calcium activated 1 -1 ,3 1,9 1,8 1417622_at SIc12a2 solute carrier family 12, member 2 -1 ,2

28 catabolisme des sucres z score= <1,96 <1,96 4,01 <1,96 4,48 <1,96 1417951_at Eno3 enolase 3, beta muscle 2,2 1,6 1418373_at Pgam2 phosphoglycerate mutase 2 2,1 1,6 1453128_at Xlkd1 extra cellular link domain-containing 1 1,7

29 transport des ions z score= <1,96 <1,96 3,62 4,19 <1,96 <1 ,96 1427306_at Ryr1 ryanodine receptor 1, skeletal muscle 2,1 1436239_at SIc5a5 solute carrier family 5, member 5 2,0 1,8 1420913_at SIco2a1 solute carrier organic anion transporter fam 2a1 1,6 1417852_x_at Clca1 chloride channel calcium activated 1 -1 ,2 1,9 1460259_s_at Clca1/Clca2 chloride channel calcium activated 1 and 2 -1,3 2,3 1417622_at SIc12a2 solute carrier family 12, member 2 -1,4 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1,8

- ----- - ------ --

49

Numéro des Symbole Ternes de traitement

ensembles des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs

de sondes (NF) (NF) (NF) (NF) (NF) (NF)

30 réponses aux blessures z score= <1,96 <1,96 3,27 <1,96 <1,96 <1,96 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 1419282_at Ccl12 chemokine (C-C motif) ligand 12 1,9 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45y 1,7 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,8

31 hématopoïèse z score= <1,96 <1,96 2,45 <1,96 <1,96 <1,96 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 1,7

32 énergie dérivée par l'oxydation des composés organiques z score= <1,96 <1,96 2,35 <1,96 4,58 4,21 1417951_at Eno3 enolase 3, beta muscle 2,2 1,6 1,7 1418373_at Pgam2 phosphoglycerate mutase 2 2,1 1,6 1,7 1448602_at Pygm muscle glycogen phosphorylase 2,1 1,9 1,7

33 métabolisme des acides amines z score= <1,96 <1,96 <1,96 5,77 <1,96 <1,96 1419524_at Tph1 tryptophan hydroxylase 1 3,4 1453128_at Xlkd1 extra cellular link domain-containing 1 1,9 1419549_at Arg1 arginase 1, Iiver -1 ,7

34 apoptose z score= <1,96 <1,96 <1,96 2,49 <1,96 <1,96 1460259_s_at Clca1/Clca2 chloride channel calcium activated 1 and 2 2,3 1454903_at Ngfr nerve growth factor receptor, member 16 1,8

35 métabolisme de la phosphocréatine z score= <1,96 <1,96 12,99 <1,96 <1,96 19,28 1417614_at Ckm creatine kinase, muscle 2,3 1,8 1428722_at Ckmt2 creatine kinase, mitochondrial 2 2,0 1,6

- -- - - -- - -----

50

1.3 Discussion

On ne peut présenter des résultats de biopuces sans parler de la réplication de l' expérience.

Si le seul intérêt de ce mémoire était de répertorier, à un temps donné et hors de tout doute,

le plus grand nombre de gènes sensibles à l' action de l'E2 dans la glande mammaire de

souris, un échantillon d' ARN distribué sur 6 biopuces aurait suffi. Avec 6 biopuces,

l' analyse statistique aurait-elle été plus puissante ? Certaines erreurs n' auraient pas été

totalement évitées puisqu' il y aura toujours des sources d' erreurs inhérentes à la

technologie des biopuces. Notre choix a été de prendre une biopuce par temps de

traitement (6 au total). Contrairement à la première, cette option a permis de regrouper et

d'identifier les gènes co-régulés, d'établir des profils d'expression au cours du temps et

d' identifier les processus cellulaires impliqués. Malheureusement, il y beaucoup

d' inconnus et pas encore assez de moyens pour s'assurer d'avoir bien associé le processus

cellulaire aux gènes d'intérêt. De plus, il y a plusieurs cas où de nouvelles fonctions sont

attribuées à des gènes connus. Par exemple, nos résultats ont montré que le processus

cellulaire majeur suite au traitement à l'estradiol est la contraction musculaire. Ce résultat

est un peu surprenant à prime abord. Une explication possible serait la surestimation de ce

processus cellulaire par rapport à la sous-estimation de d'autres processus. Le « z score »

est une façon de calculer, peut-être qu'une autre méthode aurait été plus appropriée pour le

type de données que nous avions. Il existe également une possibilité que les biopuces

d'Affymetrix ne soient pas appropriées pour détecter les faibles niveaux d ' expression des

gènes dans la glande mammaire normale de souris. Il est dificille d'identifier des sentiers

majeurs d' intérêt lorsque le nombre de gènes fortement modulés par l'estradiol est petit.

Avec plus de gènes un processus cellulaire majeur peut se déplacer derrière d' autres

processus. Des logiciels sont maintenant disponibles pour déterminer quel type de

confection de biopuce est la plus appropriée pour faire ressortir un processus ou une

fonction cellulaire en particulier. Par exemple, certaines compagnies vont rendre

disponible un plus grand nombre de gènes relatifs à l' apoptose. Si 5 gènes reliés à

l'apoptose sont présents sur la biopuce et ces 5 gènes sont modulés dans l'échantillon

d'ARN, le « z score» est alors très élevé. Par contre si une compagnie dispose 50 gènes en

rapport à l' apoptose sur la biopuce, par rapport à nos 5 gènes modulés, ce processus sera

51

non significatif. Il est important de mentionner qu'il est faux de penser que tout le génome

de la souris est représenté sur une biopuce.

Que l'on soit d'avis ou non sur le nombre de biopuces par temps nécessaire pour avoir de

la robustesse statistique, les résultats sont indissociables du niveau de confiance accordé

aux données recueillies. En plus de la sensibilité inhérente de la technique des biopuces, le

choix de la méthode de normalisation a aussi un impact sur la décision de rejeter ou non un

gène, surtout si ce gène a un rôle important à jouer dans le tissu, et qu'en plus il soit

d'autant plus près du seuil critique de détection.

Par l'observation des courbes de concordance des gènes identifiés par les 2 méthodes de

normalisation MAS 5.0 et RMA, l'allure des courbes des profils d'expression est similaire,

mais variable sur la hauteur de l'intensité de certains points de la courbe i.e. le gène est

modulé de manière identique, sauf que la modulation du gène pour certain point de temps

est plus prononcée avec une méthode de normalisation qu'avec l'autre. Ceci explique en

partie pourquoi un gène apparaît dans une méthode de normalisation et pas dans l' autre.

RMA a tendance à donner des intensités plus basses que MAS5.0, mais quelques fois la

relation inverse s'applique. La sélection des gènes en est que plus laborieuse car il faut

porter un jugement critique sur chaque courbe à comparer.

Les gènes fortement régulés sont toujours détectés quelle que soit la méthode de

normalisation employée. C'est-à-dire, pour un gène donné, si la valeur du traitement se

démarque bien de la valeur contrôle. Cependant, modifier un paramètre dans une méthode

de normalisation peut amener des gènes peu modulés, c'est-à-dire ceux près de la limite

critique a être rejetés ou acceptés. Cette constatation s'applique au sein de la même

méthode. En effet, certains algorithmes de normalisation ont des paramètres modifiables

par l'utilisateur alors que d'autres paramêtres ne sont pas modifiables. Par exemple, avec

MAS 5.0, la valeur du seuil de détection, gènes classés présents (par défaut al <0.04) ou

absents (a22:0.04), est modifiable. Si on diminue al, le taux de faux détectés est réduit,

malheureusement, le taux de vrais détectés est aussi réduit. Ce seuil minimal de détection

recommandé ne donne pas toujours le taux exact de faux positifs. Certaines sondes sont

52

plus problématiques que d'autres. De plus, un utilisateur pourrait décider de normaliser les

45,037 ensembles de sondes et retirer celles qui lui semblent inadéquates. De la même

manière, on peut enlever certaines paires de sondes (PM/MM) qui semblent mauvaises à

l ' intérieur d'un ensemble de sondes, ou encore, utiliser toutes les sondes, sans rien exclure.

Une autre stratégie serait de normaliser les données par rapport à un groupe d' ensembles

de sondes qu'on dit de référence.

Pour obtenir une liste de gènes régulés, deux étapes sont nécessaires. Premièrement, il faut

normaliser les données. Deuxièmement, il faut choisir une méthode pour déterminer les

gènes différentiellement exprimés. La liste de gènes obtenue, après avoir appliqué

l' équation d ' expression différentielle, est largement tributaire de la méthode de

normalisation [45]. À partir des résultats que nous avons obtenus, nous avons observé que

les NFs déterminés par MAS 5.0 sont plus élevés que ceux déterminés par RMA. De plus,

les données de RMA sont mieux confirmés que celles de MAS 5.0. Plusieurs gènes

spécifiques à MAS 5.0 sont validés par qRT-PCR mais sont rejetés avec RMA (NF ~ 1.0).

Ceci est probablement dû au fait que RMA est plus conservateur. RMA normalise toutes

les biopuces, en considérant tous les temps de traitements à la fois en plus de stabiliser la

variance. Par contre, MAS 5.0 ne normalise qu'une biopuce à la fois, sans stabiliser la

variance. Ainsi, MAS 5.0 n'enlève peut-être pas assez la variation technique susceptible de

s' ajouter à la variation biologique. Le résultat est un signal plus fort avec moins de

résolution.

Une des raisons de l ' utilisation de la méthode RMA est sa performance dans les faibles

intensités. La méthode MAS 5.0, moins populaire qu'elle ne l'a déjà été, est utilisée par

ceux qui croient au bienfait de soustraire le MM du PM. Ce concept caractérise MAS 5.0

davantage dans la façon de l'utiliser que dans l'exclusivité de son utilisation.

Il est problématique de sélectionner une seule méthode de normalisation puisque chaque

méthode fait ressortir un certain nombre de gènes régulés qui sont différents d'une autre

méthode. Étant donné que les gènes fortement régulés apparaissent habituellement avec les

deux méthodes de normalisation, l'utilité de comparer les gènes différentiellement

53

exprimés par plus d'une méthode serait d'augmenter le nombre de gènes acceptés en

analysant particulièrement les gènes à la limite du seuil minimal de sélection (NF) c' est-à

dire les gènes faiblement modulés ou les gènes de faibles intensités mais par contre, qui

peuvent donner des NFs élevés ou acceptables. Pour ce faire, en plus de la notion de « P

value» pour MAS 5.0 et des valeurs d' intensité (MAS 5.0 et RMA), il serait bien d' ajouter

un indice de dispersion. Cet indice de dispersion indique comment le duplicata de biopuce

s' écarte de la moyenne des deux. Dans le cadre de cette étude, seules les valeurs d' intensité

des gènes sur les biopuces contrôles ont été obtenues en duplicata. La dispersion représente

l' écart entre les intensités d 'un gène sur deux biopuces contrôles par rapport à la moyenne

des deux intensités pour ce même gène. Ainsi, une valeur de dispersion de 33% signifie

que l' intensité du gène sur une biopuce est la moitié de l ' intensité du gène sur l' autre

biopuce. Dans cet exemple, une valeur de dispersion de 33% est moins dramatique dans les

basses intensités que dans les hautes. On peut observer des valeurs de dispersion de plus de

50%, dans les pires cas de plus de 80%, et, dans les meilleurs cas, il est parfois possible

d ' avoir des valeurs de 0%. Ce dernier cas indique que les intensités des duplicata sont

identiques. Dans certains cas ou les intensités des sondes sont faibles, le pourcentage de

dispersion, qui peut varier d'une méthode de normalisation peut être un indicateur. Par

exemple, nous avons observé que le pourcentage de dispersion des valeurs d' intensité d'un

gène sur les biopuces contrôles pouvait être de 3.5% lorsque les données étaient

normalisées par RMA alors qu'il était de 35% selon les données normalisées par MAS 5.0.

Ce gène serait probablement à rejeter avec MAS 5.0 mais accepté avec RMA malgré le

faible niveau d'expression. Le point faible d'avoir choisi de sélectionner les gènes par le

NF de ±2.00 est qu'il ne respecte pas le fait qu'un NF de 2.00 pour MAS 5.0 ne veut pas

dire nécessairement un NF de 2.0 pour RMA. Chaque méthode, pour chaque gène, a sa

propre valeur de seuil c'est-à-dire qu'un NF de 2.00 avec MAS 5.0 peut équivaloir à un NF

de 1.80 ou 2.20, dépendemment de la performance des sondes ce qui ne peut, en pratique

pour l'instant, être déterminé avec précision.

Les connaissances actuelles sur les gènes stimulés par l 'E2 ne sont peut-être pas assez

suffisantes pour permettre de mettre en évidence une cascade de gènes en particulier,

Cependant, on retrouve plusieurs gènes modulés par l'E2 dans la glande mammaire comme

54

ERa, PRLR et PGER, déjà rapportés dans la littérature. On peut malgré tout constater que

la quantité d'ARNm du récepteur de l'E2a diminue, 3 heures après l'injection d'E2, la

cellule ayant probablement moins besoin en récepteur. De plus, on remarque que

l'inhibition de l'expression du gène CITED 1 concorde avec la diminution de l' expression

du récepteur de l' E2. Certains auteurs [46-47] ont suggéré que le gène CITED 1

désensibiliserait la glande mammaire à l'E2 en agissant au niveau du promoteur.

Si on se basait sur le « z score » la plupart des gènes modulés par E2 seraient impliqués

dans l'organisation du cytosquelette (maintien de l' intégrité, polymérisation de l'actine et

j onctions adhérentes). On retrouve également un petit nombre de gènes impliqués dans le

développement musculaire squelettique. Puisque les glandes mammaires chez la souris

n 'ont pas été prélevées en profondeur, il est peu probable, bien que toujours possible, que

ces résultats soient dus à de la contamination par des tissus musculaires avoisinants. Des

protéines impliquées dans la contraction musculaire : troponin C, actin, tropomyosin, la

chaîne lourde de la myosine et la dystrophine sont également présentes dans les tissus non

musculaires, suggérant qu'elles peuvent avoir des fonctions autres que celles connues [48].

Les cellules myoépithéliales contiennent, entre autres, une grande quantité de micro

filaments, et des protéines contractiles. Par exemple, le gène Tnni2 est associé au muscle

squelettique, qui, par un mécanisme de phosphorylation, est une pompe à proton ATPase.

Ainsi il faut porter l'accent plus sur la fonction que sur le tissu auquel les gènes sont

asssociés. En effet, le gène Tnni2 est présent dans le cartilage où il agit comme inhibiteur

de l' angiogenèse, et il est associé aux métastases tumorales [48]. Le facteur de

transcription Eefl a2 exprimé dans le muscle squelettique, est impliqué dans la

différentiation myogénique. Il est anti-apoptotique pour les myotubes, c'est un oncogène

potentiel dans le cancer de l'ovaire puisqu'il peut contribuer à la formation de foyers,

permettre la croissance et diminuer le temps de doublage des fibroblastes [49].

Dans le paragraphe précédant la question à laquelle il fallait répondre était de savoir si les

connaissances sur les gènes musculaires pouvaient être transposées dans un autre tissu. Si

on faisait abstraction bien sûre de l'expérimentation en laboratoire qui démontrerait la

présence ou non protéine est présente ou non, Plaçons nous du côté de l'hormone. Est-ce

55

que l 'E2 peut être favorable à la modulation de gènes musculaires? À partir d'une librairie

d'ADNc de glande mammaire humaine, ils ont découvert que Tnni2 est un co-activateur du

gène estrogen receptor-related receptor alpha [50]. D' autres troponines sont modulées:

Tncc 1 et Tnnc2, impliqués dans la régulation de la contraction musculaire, et Tnnt3 qui est

en plus un constituant structural du cytosquelette. Une chose est claire, l' observation de la

glande mammaire montre qu' il y a eu croissance après l' injection d'E2. Les marqueurs de

la croissance épithéliale sont les kératines. Il y a deux cytokératines glandulaires : Krt8 (un

marqueur luminal) et Krt18. Dans la différenciation des cellules épithéliales, on a le gène

Krt4.

Les logiciels tel Mappfinder qui, par le « z score » calculé, mettent en évidence et classent

les processus cellulaires sont utiles seulement si l'utilisateur replace les données dans leur

contexte. C' est un aide servant au regroupement pour éviter d' avoir à jauger chaque gène

sur une base individuelle, et non une certitude. Si on répertorie les gènes en lien avec le

terme liaison au calcium «<ion calcium binding») le processus prédominant ne serait plus

ceux se rapportant au tissu musculaire. Il a été démontré qu'un « knock-out» du récepteur

de la vitamine D chez des souris affecte la morphologie de la glande mammaire par un

mécanisme qui n 'est pas encore élucidé [51]. Qui dit calcium dit vitamine D, elle est

responsable de l ' homéostasie du calcium. Le calcium n ' est peut-être pas exclusivement

réservé à la contraction musculaire. Pourrait-il avoir comme fonction le maintient de

l' intégrité de la structure de la glande mammaire pendant la croissance? La vitamine D3

inhibe la croissance des cellules de tumeurs du sein qui sont dépendantes ou indépendantes

du récepteur des estrogènes [52]. Des 16 gènes liés au calcium il y en a 8 en lien avec le

tissu musculaire: Tnncl , Tnnc2, Ryrl, Casql, Atp2al , Tcap, ActaI, Actn3 . Actn3 qui

possèdent des domaines de liaisons au calcium et à l' actine. On le voit en relation avec la

structure du cytosquelette, les jonctions serrées. C'est un modulateur du calcium, il possède

un capteur de calcium. Tcap (processus: développement musculaire) est en lien avec

ActaI (processus: motilité cellulaire) dans l' assemblage des myofibrilles. ActaI , très

fortement exprimé dans la glande mammaire (www .infonnatics. j ax. org), est en lien avec le

cytosquelette de l' actine et les filaments de l' actine. Atp2al par l'entremise d'une pompe

ATPase entraîne une déplétion en calcium à partir des réserves du réticulum

- -- -----------------------------------------------------------------------------------~

56

endoplasmique et sarcoplasmique. Tncc 1 et Tnni2 peuvent lier l' actine, ce sont des gènes

sensiblent à la présence de calcium. Stat5a est en lien avec la liaison au calcium, il est aussi

responsable de la régulation de la différentiation épithéliale. Mais il y a tellement de

fonctions auxquelles est rattaché Stat5a qu'il faut se demander si ce que je viens de

mentionner s' applique aux données. Seule l' expérimentation pourrait confirmer si les liens

sont véritables entre le calcium, les gènes musculaires, et la formation potentielle d'un

complexe, par l ' intermédiaire du calcium et de l' actine. Aussi si les gènes de la motilité

pourraient former un tout structurel qui pourrait favoriser la croissance de la glande

mammaire. En tout cas, ce qui a vraiment été démontré est que la vitamine D régule le

phénotype des cellules du cancer du sein en changeant l ' architecture des filaments d' actine

et l' allure des microtubules, et qu'elle a la capacité de promouvoir les contactes entre les

cellules [53].

57

CONCLUSION

En se basant sur le faible nombre de gènes régulés et aux valeurs de NF peu élevées, la

glande mammaire de la souris non gestante est un tissu moins fortement régulé par rapport

à une souris gestante, ou en fin de lactation où le tissu subi un remodelage structurel. Il ne

fallait pas s' attendre à la mise en évidence d'un sentier majeur.

En plus de la valeur de « P value» et de la valeur d' intensité, nous avons vu l' utilité d'un

indice de dispersion lorsque l' on utilise deux méthodes de normalisation afin d' augmenter

le nombre de gènes. On améliore ainsi la prise de décision de rejeter ou non un gène,

sachant que certaines sondes ont un comportement variable dû à un vice de confection, ou

à un manque de spécificité par rapport à certains gènes. Ainsi, le calcul d'un indice de

dispersion élevé pourrait être indicateur de l'existence de ce type de sonde dans l' ensemble

de sondes étudiées. Il faudrait donc suivre de plus près la variabilité de cet ensemble de

sondes dans le tissu à d'autres temps ou dans un autre tissu.

Pour augmenter le taux de confiance accordé aux résultats obtenus, j'opterai pour ajouter

une biopuce avec un inhibiteur de l'E2, et une autre biopuce avec de l'ARN provenant de

souris intactes (sans ovariectomie) plutôt que plusieurs biopuces pour un traitement à l'E2.

Ceci permettrait de voir les effets de la castration (perte d' estrogènes), et retour au

phénotype intact lors de l' ajout de l'E2. L'ajout de plusieurs mesures identiques n' apporte,

autre que la crédibilité statistique, que l'addition de quelques gènes de plus à la liste, car

les gènes fortement modulés et forts en intensités ont tendance à être confirmés.

Un des sujets importants de la discussion a été de s'attarder sur la question à savoir si

c'était possible que des gènes musculaires s'expriment dans la glande mammaire de souris.

Certains articles cités semblent démontrer que oui c' est possible. De plus, ces

interrogations ont eu un effet additionnel, celui de faire preuve de vigilance quand on veut

tirer des conclusions à partir de logiciels qui permettent de mettre en évidence des

processus cellulaires. Plusieurs logiciels existent et chacun s'appuie sur une méthode

statistique en particulier. C'est l'expérience de l'utilisateur et ses connaissances qui

58

permetent, mieux que le logicel d'avoir un regard critique et interrogateur sur les résultats.

C'est à l'utilisateur de chercher et consulter les articles qui comparent et critiquent ces

logiciels.

En ce qui concerne les méthodes de normalisation, plusieurs méthodes existent. La plus

populaire est RMA, mais MAS5. 0 est encore utilisée. Il est difficile pour moi de dire

laquelle est la meilleure car les opinions divergent trop. Ce mémoire ne critique pas à

proprement parler les méthodes de normalisation, mais il met en évidence certains faits. Ce

qui attire mon attention c'est que MASS.O a tendance à donner des valeurs de ratio plus

élevées que RMA, et que RMA confirme mieux (il donne plus de gènes communs avec les

résultats de qRT_PCR) que MASS.O. Ainsi, MASS.O donnent plus de gènes au-dessus du

seuil de sélection fixé mais également plus de faux positifs. Quoi qu'il en soit, à ma

connaissance, il n'exite pas de méthode de normalisation qui possède un parfait contrôle

sur les taux de faux positifs et de faux négatifs. Bien que ce sujet n'a pas été abordé dans

mon mémoire et ne fait pas partie des résultats, on constate que plus on augmente le

nombre de biopuces pour le même échantillon d'ARNm et plus on obtient de précision sur

la mesure.

59

RÉFÉRENCES

1 Richert M.M. et coll. 2000 An Atlas of Mouse Marnmary Gland Developrnent, 1. of

Marnmary Gland Biol. Neoplasia 5:227.

2 KrKraus W. L. et coll. 1995 Inhibitory cross-talk between steroid hormone receptors:

differential targeting of estrogen receptor in the repression of its transcriptional

activity by agonist- and antagonist-occupied progestin receptors. Mol Cell Biol.

15: 1847.

3 Silberstein G. B. et coll. 1996 Progesterone receptors in the rnouse marnrnary duct:

distribution and developmental regulation. Cell Growth Differ. 7:945.

4 Anderson E. et coll. 2004 Steroid receptors and cell cycle in normal marnrnary

epitheliurn, 1. of Marnrnary Gland Biol. Neoplasia 9:3.

5 Shyarnala G. et coll. 1992 Estrogen dependent regulation of estrogen receptor gene

expression in normal rnarnrnary gland and its relationship to estrogenic sensitivity.

Receptor. 2: 121.

6 Labrie F. et coll. 1998 DREA and the intracrine formation of androgens and

estrogens in peripheral target tissues: its role during aging. Steroids., 63 :322.

7 Reid G. et coll. 2002 Ruman estrogen receptor-alpha: regulation by synthesis,

modification and degradation. Cell Mol Life Sei. 59:821.

8 Diel P. 2002 Tissue-specifie estrogenic response and molecular mechanisms. Toxicol

Lett. 127:217.

9 Almeida M. et coll. 2005 Classical Genotropic versus Kinase-initiated Regulation of

Gene Transcription by the Estrogen Receptor Alpha. Endocrinology 147: 1986.

10 Revankar C. M. et coll. 2005 A transmembrane intracellular estrogen receptor

mediates rapid cell signaling. Science 307: 1625.

Il Migliaccio A. et coll. 2002 Sex steroid hormones act as growth factors. J Steroid

Biochem Mol Biol. 83:31.

12 Kushner P. 1. et coll. 2000 Estrogen receptor pathways to AP-l. J Steroid Biochem

Mol Biol. 74:311.

----~~--~--~--- - - -------- --~

60

13 Keller H. et coll. 1995 Signaling cross-talk between peroxisome proliferator

activated receptor/retinoid X receptor and estrogen receptor through estrogen

response elements. Mol Endocrinol. 9:794.

14 Shyamala G. et coll. 1990 Developmental regulation of murine mammary

progesterone receptor gene expression. Endocr. 126:2882.

15 Sak K. , Everaus H. 2004 Nongenomic effects of 17beta-estradiol--diversity of

membrane binding sites. J Steroid Biochem Mol Biol. 88323.

16 Dowsett M. and Ashworth A. 2003 New biology of the oestrogen receptor. Lancet

362:260.

17. David G. et coll. 2005 Global Gene Expression Analysis of Estrogen Receptor

Transcription Factor Cross Talk in Breast Cancer: Identification of Estrogen

Inducedl Activator Protein-1-Dependent Genes. Molecular Endocrinology 19:

362.

18 Stoughton R. B. 2005 Applications of DNA microarrays in biology, Annu. Rev. ,

Biochem., 74:53.

19 Hardiman G. 2004 Microarray platforms - comparaIsons and contrasts. Future

Medecine 5:487.

20 Chudin E. et coll. 2001 Assessment of the relationship between signal intensities and

transcript concentration for Affymetrix GeneeChip arrays. Genome Biology

3:research0005.1

21 Rockett J. C. et coll. 2004 Confirming microarray data - IS it really necessary?

Genomics 83:541.

22 Dudoit S. et coll. 2002 Statistical method for identifying genes with differential

expression in replicated cDNA microarray experiments. Stat. Sin. 12: Ill.

23 Li C. and Wong W.H. 2001 Model-Based analysis of oligonucleotide arrays: model

validation, design issues and standard error application. Genome

Biol.,2:RESEARCH0032.

24 Workman C. et coll. 2002 A new non-linear normalisation method for reducing

variability in DNA microarray experiments. Genome Biol. 3 research0048.

25 Boistad B. M. et coll. 2003 A comparaison of normalization methods for high density

oligonucleotide array data based on variance and bias. Bioinformatics 19: 185.

61

26 Lazaridis R. A. et coll. 2002 A simple method to improve probe set estimates from

oligonucleotide arrays. Math. Biosci. 176:53.

27 Irizarry, R. et coll. 2003 Exploration, normalization, and summaries of high density

oligonucleotide array probe level data. Biostatistics 4:249.

28 Li C. and Wong W.H. 2001 Model-Based analysis of oligonucleotide arrays:

Expression index computation and outlier detection. PNAS 98:31.

29 Sasik R. , Calvo E. , Corbeil J. 2002 Statistical analysis of high-density

oligonucleotide arrays: a multiplicative noise model. Bioinformatics 18: 1633.

30 Irizarry R. A. et coll. 2004 A model based background adjustement for

oligonucleotide expression arrays. Technical Report, John Hopkins University,

Department of Biostatistics Working Papers, Baltimore, MD.

www.bepress.com/jhubiostat/paper1.

31 Naef F. et coll. 2002 DNA hybridization to mismatched templates: a chip study,

Phys. Rev. E. 65:40902.

32 Naef, F. 2003 Solving the riddle mismatch: Labellind and effective binding ln

oligonucleotide arrays. Physical Review 68:011906.

33 Zhang L. et coll. 2003 A model of molecular interactions on short oligonucleotide

microarray . Nature Biotechn. 21: 818.

34 Hubbell H. 2004 Designing M-estimators for expressIon analysis: PLIER.

mbi.osu.edu/2004/ws1materials/hubbell.ppt.

35 Affymetrix 2004 Technical note. GeneChip expressIon platform: comparaIson,

evolution, and performance. Affymetrix.com.

36 Âstrand M. et coll. 2003 Contrast of normalization of oligonucleotide arrays. 1.

Comput. Biol. 10:95.

37 Shedden K. et coll. 2005 Comparison of seven methods for producing Affymetrix

expression scores based on False Discovery Rates in disease profiling data.

BMC Bioinformatics 6:26.

38 Reimers M. and Weinstein JN. 2005 Quality assessment of microarrays: visualization

of spatial artifacts and quantitation of regional biases.

BMC Bioinformatics 6:166.

1

L

62

39 Mutch D. M. et coll. 2002 The limit fold change model : A practical approach for

selecting differentially expressed genes from microarray data. BMC Bioinformatics

3:17.

40 Doniger S. W. et coll. 2003 MAPPFinder: using Gene Ontology and GenMAPP to

create a global gene-expression profile from microarray data. Genome Biol. 4:R7.

41 Luu-The V. et coll. 2005 Improved real-time RT-PCR method for high-throughput

measurements using second derivative calculation and double correction.

Biotechniques. 38 :287.

42 Easton DF. et coll 2007 Genome-wide association study identifies novel breast

cancer susceptibility loci. Nature 447: 1087.

43 Anastasi S. et coll 2005 Loss of RALT/MIG-6 expreSSIon in ERBB2-amplified

breast carcinomas enhances ErbB-2 oncogenic potency and favors resistance to

Herceptin. Oncogene. 24:4540.

44 Inuzuka H. et coll 1999 DifferentiaI regulation of immediate early gene expression in

preadipocyte cells through multiple signaling pathways. Biochem Biophys Res

Commun. 265:664.

45 Hoffmann R., Seidl T., Dugas M. 2002 Profound effect ofnormalization on detection

of differentially expressed genes in oligonucleotide microarray data analysis.

Genome Biol. 3:RESEARCH0033.

46 Yahata T. et coll. 2001 Selective coactivation of estrogen-dependent transcription by

CITED1 CBP/p300-binding protein. Genes Dev. 15:2598.

47 Howlin 1. et coll. 2006 CITED 1 homozygous null mice display aberrant pubertal

marnrnary ductal morphogenesis. Oncogene 25: 1532.

48 Moses M. A. et coll. 1999 Troponin 1 is present in human cartilage and inhibits

angiogenesis. Proc Nad Acad Sci USA. 96:2645.

49 Sharma S. et coll. 2007 Characterization of a putative ovarian oncogene, elongation

factor 1 alpha, isolated by panning a synthetic phage display single-chain variable

fragment library with cultured human ovarian cancer cells. Clin Cancer Res.

13:5889.

63

50 Li Y. et coll. 2008 Fast skeletal muscle troponin 1 is a co-activator of estrogen

receptor-related receptor alpha. Biochem Biophys Res Commun. 369:1034.

51 Zinser G. et coll. 2002 Vitamin D(3) receptor ablation alters mammary gland

morphogenesis. Development 129:3067.

52 Van Weelden K et coll. 1998 Apoptotic regression of MCF -7 xenografts in nude mice

treated with the vitamin D3 analog, EB 1 089. Endocrinology, 139:2102.

53 Pendas-Franco N. et coll. 2007 Vitamin D regulates the phenotype of human breast

cancer cells. Differentiation 75: 193.