DENIS MATH ON
COMPARAISON DES APPROCHES BIO-INFORMATIQUES UTILISÉES DANS L' ANALYSE DE LA RÉGULATION DU TRANSCRIPTOME DE LA GLANDE
MAMMAIRE DE SOURIS
Mémoire présenté à la Faculté des études supérieures de l'Université Laval
dans le cadre du programme de maîtrise en physiologie et endocrinologie pour l'obtention du grade de maître ès sciences (M.Sc)
© Denis Mathon, 2008
F ACUL TÉ DE MÉDECINE UNIVERSITÉ LA V AL
QUÉBEC
2008
11
RÉSUMÉ
Différentes stratégies permettent de tirer des conclusions à partir des données générées par
des biopuces d'ADN dans l'étude de la dynamique de l'estradiol (E2) sur le transcriptome
de la glande mammaire de souris vierges. Nous avons retenu 2 stratégies soit effectuer un
classement des processus cellulaires des gènes régulés et tirer profit des courbes de
régulation en fonction du temps. Nous avons de plus, utilisé 2 méthodes de normalisation
des données (MAS5.0 et RMA) afin d'évaluer leurs similitudes et leurs disparités, ce qui a
permis d'aller vers une meilleure compréhension de leurs impacts sur les résultats obtenus.
Par l'observation des patrons d' expression suite à l'action de l'E2, les similarités entre
MAS5.0 et RMA sont correctes. Cependant, c'est lorsque l'écart entre les intensités du
traitement et du contrôle est faible que les dissemblances sont les plus manifestes c' est-à
dire là où discriminer entre la variabilité biologique et technique est la moins évidente.
~--------------~- ._------------- ~------
111
ABSTRACT
Different strategies may be used to draw conclusions from the data generated by DNA
microarrays in our study of the effect of estradiol (E2) on the transcriptome of the
mammary gland of mice. We selected two strategies the first one involving a classification
by cellular pro cess of regulated genes and the second one taking advantage of gene
expression profile over a time course of treatment. We also used two standardization
methods, MAS5.0 and RMA, in order to assess their similarities and differences leading us
to a better understanding of their impact on the results. In comparing expression patterns of
regulated genes by E2, we observed that there are good similarities between gene
expression profiles obtained by MAS5.0 and RMA. However, when the ratio between
signal intensities of treatment and control is low, differences between data normalized by
MAS 5.0 and RMA are more apparent i.e where the discrimination between biological and
technical variability is the least obvious.
-- ------------------------------------------------------------------------------------~
IV
REMERCIEMENTS
Je voudrais d'abord remercier le Dr. Fernand Labrie, directeur du centre de recherche du
CHUL, pour m'avoir engagé en 2003 lors d ' un stage de fin de Baccalauréat en biologie
médicale. Ceci m'a permis de connaître le Dr. Jacques Simard, qui allait devenir mon
directeur de maîtrise. À mon arrivée, j'entendis aussitôt parler de lui comme d'un
chercheur très critique à l'égard du travail d'autrui, qu ' il n'acceptait pas n ' importe quel
travail venant de ses étudiants. Ils ont oublié de mentionner qu'il faisait passer les intérêts
de ses étudiants avant son profit personnel, ce qui en fait un modèle pour construire des
directeurs d ' études graduées.
Je voudrais remercier le mathématicien Pascal Belleau pour les nombreuses et intéressantes
conversations sur les statistiques appliquées aux biopuces ainsi qu'Astrid Deschênes pour
m'avoir écrit un programme que j'utilise encore souvent, et qui me sauve des jours de
travail à chaque utilisation.
Je voudrais remercier les responsables des plateformes de biopuces et de PCR quantitatif,
Ezéquiel Calvo et Nathalie Paquet respectivement, pour m'avoir donné toutes les
informations et les données nécessaires à mon travail.
Un petit quelque chose pour souligner l'importance des femmes en milieu de recherche.
Un grand merci à Martine Dumont, professionnelle de recherche et bras droit de Jacques
Simard, pour m'avoir fait bénéficier de sa grande expertise en matière de critique de
publications, pour ses commentaires, ses conseils et ses corrections apportées à ce
mémoire. Non seulement elle a fait preuve de professionnaliste que l'on souhaite d'une
professionnelle de recherche, mais pour avoir mis du cœur à ce mémoire autant que si cet
ouvrage avait été le sien. Un merci à Céline Martel pour m'avoir donné, à plusieurs
reprises, toutes les informations nécessaires sur les protocoles de souris et de tissus qu'elle
connaît comme le fond de sa poche.
Aux personnes de mon entourage intime, j'écris que les silences sont les meillleurs pour
tout dire et cacher des trésors.
v
AVANT-PROPOS
Ce mémoire est présenté à la Faculté des études supérieures de l'Université Laval
dans le cadre du programme de maîtrise en physiologie et endocrinologie
pour l'obtention du grade de maître ès sciences (M.Sc). Ce mémoire est le fruit d'un projet
qui s' inscrit dans le cadre du programme de recherche A.T.L.A.S., financé par Génome
Canada et Génome Québec, visant à créer un atlas des profils génomiques de l ' action de
plusieurs stéroïdes dans différents tissus chez la souris afin d' identifier les changements
dans l'expression des gènes induits par ces stéroïdes. Il présente, plus spécifiquement, les
résultats obtenus, par la technique d'hybridation de biopuces d'oligonucléotides, de
l'expression des gènes régulés par l' estradiol dans la glande mammaire de souris. Ces
résultats sont précédés d'une introduction et suivis d'une conclusion générale.
L'introduction présente une brève description de la morphologie et du développement de la
glande mammaire de souris, du rôle et de l'action des estrogènes et de leurs récepteurs. Par
la suite sont abordés les différents types de biopuces et les algorithmes de normalisation.
Le chapitre 1 de ce mémoire porte sur la comparaison des méthodes de normalisation MAS
5.0 et RMA, et présente les profils d'expression des gènes régulés par la 17~-estradiol (E2)
en fonction du temps de traitement.
Finalement, la conclusion porte sur les retombées et la continuité futures de cette étude.
VI
TABLE DES MATIÈRES
RÉSUMÉ 11
ABSTRACT 111
REMERCIEMENTS _________________________________________________________________________________________________ _____ __ ___ __ _ IV
A V ANT -PROPOS. ________________________________________________________________________________________________________ ___ ___ __ _ V
TABLE DES MATIÈRES _____________________________________________ _______________________________ ________________________ _ VI
LISTE DES TABLEAUX _____________________________________________________________________________________________________ VUI
LISTE DES FIGURES.__________________________________________________________________________________________________________ ix
LISTE DES ABRÉVIATIONS_____________________________________________________________________________________________ x
INTRODUCTION _____________________________________________________________________________________________________ ____________ _
1. Structure de la glande mammaire, mécanisme d'action et complexité de la
régulation génique par la 17~-estradiol (E2} __________________________________________ _______________ .
2. Les biopuces.___________________________________________________________________________________________________________ 7
2.1 Aspects techniques et dynamiques de l 'hybridation des sondes____________ 8
2.1.1 Quelques difficultés inhérentes à l'utilisation des biopuces_______ 10
2.2 Étapes de transformation des données_____________________________________________________ 12
2.3 Algorithmes de normalisation (modèles linéaire et logarithmique }______ 13
2.3.1 Modèle d' Affymetrix______________________________________________________________________ 13
2.3.2 Modèle dCHIP______________________________________________________________ _______________ ____ 15
2.3.3 Modèle Robust Multichip Analysis (RMA) __________________________________ 15
2.3.4 Modèle GCRMA 16
2.3.5 Modèle Positional-Dependant-Nearest-Neighbor (PDNN)__________ 16
2.3.6 Modèle Probe Logarithmic Intensity Error estimation (PLIER)_ 16
2.4 Avantages et inconvénients des procédures de normalisation_______________ 17
3. Définition du problème et approches expérimentales___________________________________________ 20
3.1 Problématique____________________________________________________________________________________________ 20
3.2 Approches expérimentales________________________________________________________________________ 22
CHAPITRE 1 Profils d'expression des gènes régulés par E2 dans la glande mammaire
de souris au moyen de biopuces d' oligonucléotides___________________________________ 25
1.1 Matériels et Méthodes__________________________________________________________ _______ ______ __ ___ ___ 25
VIl
1.2 Résultats____________________________ ______________ _______ _________________ ______ _________ ___ ____ ___ _____ _____ 28
1.2.1 Sélection des gènes différentiellement exprimés__________ __ ____ ___ ___ ____ 28
1.2.1.1 Par les méthodes de normalisation MAS 5.0 et RMA ___ 28
1.2.1.2 Concordance des profils d' expression_________ __ ______________ ___ 30
1.2.2 Comparaison des méthodes de normalisation MAS 5.0 et RMA_ 33
1.2.3 Classification des gènes selon les profils d' expression______ ___ ___ ___ __ 35
1.2.4 Classification des gènes par processus biologiques.___ ____ ___ __ ___ ___ ___ _ 42
1.3 Discussion_____ ___ __ __ __ ____ ______ __ _____ ___ _____ ____ _________________ _________ _________ __ __ ____ ____________ 50
CONCLUSION 57 ----- --- --_ .. _-------------- --- --- -- -_ .......... _- _ ..... _-_ .. _-- ----- -- _ .. . .. -- ------- -------- -- -- -- -- ----_ .. _--- -_ ... ---_ ... - - _ ..... - -- _ .....
RÉFÉRENCES _____ ____ ______ ______ ____ __ __ ____ ___ _______ ___ ------- ------------------ ------- ---------------------- -- -- ---- ----- ----- - 59
VI11
LISTE DES TABLEAUX
CHAPITRE 1
Tableau 1 Matrice des moyennes géométriques des coéfficients de regression linéaires
des dro i tes. _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 35
Tableau 2 Classification par profil d ' expression des 138 gènes confirmés par
qRT_PCR----------------- ---------------------- ---- ---- __ ___ _______ ___________ _________ __ __________ __ ________ ________ _ .39
Tableau 3 Classification des gènes par processus biologiques selon Gene Ontology en
fonction du "z score" et du temps de traitement. _________ _____ __ ______________ __ __________ _____ __ 45
IX
LISTE DES FIGURES
INTRODUCTION
Figure 1
Figure 2
Figure 3
Différenciation ductale et lobulo-alvéolaire de la glande mammaire durant
les quatre principaux stades de développemen(__________ __ ____________ ______ ___ __ _________ __ _ 2
Complexité de la régulation des gènes par l 'E2.__________________ _______ ___________ ____ ____ ___ 6
Disposition d'un ensemble de sondes par rapport à la séquence de réference
ciblée 9
Figure 4 Types d' ensembles de sondes et spécificité de chacune _________________ _______ ___ __ _____ 10
CHAPITRE 1
Figure 5 Exemple de la répartition des intensités brutes des produits de la transcription
sur une biopuce (temps de traitement à 3 hrs) par rapport aux intensités brutes
de ces mêmes produits de la transcription sur une biopuce contrôle selon le
Figure 6
Figure 7
Figure 8
Figure 9
classement des signaux présents (A) ou absents (B} _______________________________________ . 29
Graphique représentant des exemples de concordance entre les méthodes____ 32
Régulation comparée entre les méthodes MAS 5.0, RMA et qRT_PCR.--- -- -- 34
Profils d'expression des gènes régulés par E2_________________________________________ ___ __ ____ 37
Représentation du Tableau 2 montrant les proportions entre les valeurs de
"z score" pour chaque processus cellulaire______________________________________________________ _ 44
LISTE DES ABRÉVIATIONS
Abréviations
A A ADNc AP-l AR ARN* ARNc ARNm AvDiff C DHEA E2 EGFR ER ERE Eq. Erk EIS HER2 HRE HSP G GADPH GCRMA GO GPR30 NSB Log2 MAPK MAS 5.0 MM p300 PCR PDNN PLIER PM pM PR qRT_PCR Ras RMA SERMs STAT
Définitions
Adénosine Angstrom Acide désoxyribonucléique complémentaire Activator protein 1 Récepteur des androgènes Acide ribonucléique marqué à la biotine ARN complémentaire ARN messager Average difference Cytosine Dehydroepiandrosterone 17~-estradiol Epidermal growth factor receptor Récepteur des estrogènes Élément de réponse aux estrogènes Équation Extracellular signal-regulated kinase 2 Estrone sulfate
x
Human epidermal growth factor receptor 2 Élément de réponse aux hormones Protéine de chocs thermique Guanine Glyceraldehyde 3-phosphate dehydrogenase Guanine cytosine robust multichip analysis GeneOntology Récepteur couplé aux protéines G membranaires Hybridation non spécifique Logarithme en base 2 Mitogen-activated protein kinase Microarray suite Mauvais appariement de sonde ElA binding prote in p300 Réaction en chaîne par polymérase Positional-dependant-nearest-neighbor Probe logarithmic intensity error estimation Parfait appariement de sonde Picomolaire Récepteur de la progestérone Reverse transcriptase PCR quantitatif Retrovirus associated sequence oncogene Robust Multichip Analysis Modulateurs sélectifs des récepteurs des estrogènes Signal transducers and activators of transcription
nf SDT SP-l Src T TO TEB TF U
Facteur de normalisation Site du début de la transcription Specificity protein Sarcoma inducing gene Thymine Température Bourgeon du bout terminal Transcription factors Uracile
Xl
1
INTRODUCTION
1. Structure de la glande mammaire, mécanisme d'action et complexité de la
régulation génique par la 17p-estradiol (E2).
La glande mammaire présente un aspect de développement unique et fait l ' objet d'une
régulation complexe par des hormones et des facteurs de croissance. Contrairement à la
plupart des organes, cette glande subit la majorité de son développement à l ' âge adulte. Les
deux composantes principales sont: le parenchyme et le stroma environnants. Les éléments
majeurs du stroma sont les vaisseaux sanguins, les adipocytes et les fibroblastes. Le
parenchyme réfère au système de canaux et aux alvéoles dans la glande. Les canaux sont
connectés au papilla mammae par un simple canal primaire. La structure du canal
comprend deux types cellulaires: la couche de cellules épithéliales internes et la couche de
cellules myoépithéliales externes. Le stroma adipeux, à l'intérieur de la glande, fournit un
support aussi bien qu'un substrat dans lequel le parenchyme peut croître et être
fonctionnel. De nombreuses hormones et facteurs de croissance participent au
développement et à la différenciation cellulaire de la glande. En plus de l' estradiol, on
compte la progestérone et la prolactine. Le développement fonctionnel et structurel de la
glande peut être divisé en sept stades: embryonnaire, postnatal, juvénile, puberté,
parturition, lactation et involution. Durant la puberté, le système de canaux prolifère dans
le stroma adipeux, cette croissance décroît graduellement en approchant la maturité
sexuelle. En fait, l'activité mitotique demeure très élevée jusqu'à ce que les conduits
atteignent la périphérie du coussin adipeux. À ce point, les bourgeons terminaux (BFT) des
conduits arborescents deviendront des structures ductales terminales caractérisées par une
très faible activité mitotique. La Figure 1 illustre bien la croissance à partir des BFTs chez
la souris vierge jusqu'à la phase d' involution débutant à la fin de la période d' allaitement.
La différenciation ductale s' effectue chez la souris vierge. Les BFTs (indiqués par les
flèches) vont donner naissance à un vaste réseau de conduits qui seront constitués de
cellules épithéliales ductales. À la gestation, ces cellules vont se transformer en structures
lobulaires ou alvéolaires. Ces formations lobulo-alvéolaires deviendront plus denses au
cours de la lactation puis régresseront au cours de la phase d'involution. On compte, chez
2
la souris, trois paires de glandes mammaires thoraciques et deux paires inguinales. Un
gradient de différentiation va de la première paire thoracique, moins différentiée, vers la Se
inguinale, plus différentiée. Les premières paires seraient plus sensibles à la stimulation
hormonale [1].
Figure 1. Différenciation ductale et lobulo-alvéolaire de la glande mammaire durant les
quatre principaux stades de développement. Les bourgeons terminaux sont indiqués par
une flèche. Référ. : http://mammary.nih.gov/atlas/wholemounts/normal/index.htm1
Les deux principaux récepteurs responsables de la croissance de la glande mammaire sont :
le récepteur des estrogènes (ERa) et celui de la progestérone (PR). ERa est responsable, à
la puberté, de la croissance des conduits (1' épithélium ductal) alors que PR, qui possède
deux isoformes soit l'isoformes A (activateur) et l'isoforme B (répresseur) [2], est
responsable de la croissance lobulo- alvéolaire lors de la parturition. À la puberté, PR est
impliqué dans la croissance ductale [3]. Les cellules épithéliales qui expriment ces
récepteurs sont adjacentes aux cellules proliférantes, ce qui implique que les stéroïdes
ovariens agissent indirectement via des facteurs de croissance paracriniens ou juxtacriniens
pour stimuler l'entrée dans le cycle cellulaire [4]. Dans le tissu normal, la sensibilité du
3
tissu à E2 peut varier. C'est ce que l'on constate lorsque E2 se métabolise en estrone
entraînant une diminution de l'ARNm de ERa [5].
Les estrogènes modulent la transcription de gènes sensibles à l 'hormone selon les besoins
physiologiques de l'organisme. Les principaux organes ciblés par l 'hormone sont: la
glande mammaire, l' utérus, les ovaires, l'épididyme et la prostate. Ce sont des tissus qu'on
dit « conventionnels» par référence au système cardiovasculaire, foie, os, cerveau, reins et
les cellules du système immunitaire. Chez la femme, le plus puissant stéroïde sexuel est la
17~-estradiol alors que l' estrone et l' estriol sont de loin les moins actifs. L ' action des
estrogènes dans les tissus cibles, telle la glande mammaire, est dépendante de l'activité du
récepteur (ER) et de la concentration intra-tissulaire en estrogène, laquelle est affectée par
la concentration sérique et son métabolisme local dans les cellules. Avant la ménopause,
les estrogènes sont synthétisés de façon prédominante dans les ovaires, sous forme
d'estrone sulfate (ElS), à partir de l'androstènedione, puis reconverti en E2 dans les tissus
périphériques dont la glande mammaire. De plus, les surrénales produisent les précurseurs
inactifs dehydroepiandrosterone (DHEA) et sa forme sulfatée la DHEA qui sont
métabolisés en androgènes et en estrogènes actifs dans les tissus périphériques. Après la
ménopause, lorsque les ovaires cessent la production d'estrogènes, le tissu adipeux, la peau
et les muscles deviennent des sources importantes d'estrogène. À partir de cette période, la
formation d'estrogène dans les tissus périphériques passe de 75% avant la ménopause à
100% dû à la transformation des précurseurs surrénaliens [6].
Les hormones stéroïdiennes ont besoin de récepteurs pour agir sur la transcription des
gènes. La voie classique est la première à avoir été étudiée. Les voies dites non classiques
ont été découvertes plus tard. Pour introduire la voie classique, les récepteurs de l'E2 (ERs)
sont des facteurs de transcription nucléaires qui sont inductibles par des ligands, retrouvés
au niveau du cytosol et du noyau. En absence d'hormone, ER est couplé à des protéines de
choc thermique (HSPs), qui l'empêchent d'interagir avec la machinerie transcriptionnelle.
La liaison de l'E2 avec ER (E2-ER) induit un changement de conformation qui libère le
récepteur des HSPs. Les couples E2-ERs vont subir une translocation du cytoplasme vers
le noyau cellulaire et forment des dimères entre eux. Chaque dimère s'associe à l'élément
-- - ----
4
de réponse aux estrogènes (EREs) situé sur le promoteur de chacun des gènes ciblés par
l'hormone. Des coactivateurs ou des corépresseurs seront recrutés de façon à
respectivement, augmenter ou réprimer la transcription de ces gènes.
Les récepteurs ERa et ERp sont les isoformes les mieux caractérisées. Il existe d ' autres
variants de diverses longueurs [7]. Morphologiquement, les knock-outs de ERa montrent
des différences contrastantes avec ceux de ERp suggérant qu' ERa est le récepteur
prédominant dans ce tissu. Les knock-outs de ERp ne semblent pas engendrer de
différences structurelles de la glande mammaire intacte. Trois types de dimères sont
possibles: ERaIERa, ERaIERp, et ERP/ERp. ERa est prédominant dans la glande
mammaire, l'hypophyse, les ovaires, l'utérus, les reins, les surrénales, alors qu' ERp est
présent dans la prostate, les ovaires, les poumons, et dans une variété d'endroit du système
nerveux central et périphérique [8].
Lorsque vient le temps d'identifier les mécanismes de régulation sous-j acents des gènes
ciblés par l' E2, on est confronté à la complexité de la régulation génique via ER. La
difficulté est reliée à l'existence des voies non classiques. Ce qui peut signifier que l 'E2
peut agir sans passer par ses récepteurs ERa ou ERp en se liant par exemple à des
récepteurs membranaires ou via des facteurs de transcription (Figure 2) :
1) ER existe aussi sous forme membranaire, soit 3 % de la fraction des types a et p [8].
Au niveau de la membrane, il peut interagir avec des kinases qui elles, par
phosphorylation, activeront d'autres facteurs de transcription [9]. E2 peut stimuler la
transcription de gènes cibles sans passer par ER, en se liant à des récepteurs couplés
à des protéines G membranaires, tel GPR30 [10]. Ce qui caractérise la voie
membranaire, c'est la rapidité de la réponse, dans les minutes, voir les secondes qui
suivent, dépendant de l'environnement cellulaire, alors que la voie classique se
compte en minutes et en heure.
2) En anglais, on parle de « cross-talk », alors qu'en français, diverses appellations sont
possibles: «interactions croisées», ou «excitations croisées», ou «interactions
inter-sentiers». Par exemple, la voie de signalisation de ER peut interférer avec celle
du récepteur des androgènes (AR) ou celle de la progestérone (PR). ER peut activer
5
la transcription de facteurs de croissance qui vont à leur tour activer des kinases
(telles que EGFR et BER2) qui elles-mêmes vont modifier, par phosphorylation, la
régulation de ERu. Ce genre de rétroaction peut entraîner la régulation de sentiers
tels que Src/Ras/Erk [11]. Il existe d'autres types d'interactions, par liaison directe ou
indirecte, entre des facteurs de transcription, des activateurs ou des répresseurs, cela
dépend du stimulus et de l'état du tissu (normal ou cancéreux).
3) Pour être régulés par l'E2, en plus du ERE, certains gènes sont dépendants de la
fonction AP-l (JunlFos), ou bien de celle de SP-l [9]. Le Tamoxifène, un modulateur
des récepteurs des estrogènes (en anglais SERMs), est un exemple de l' activation de
la transcription de gènes nécessitant la fonction AP-l [12]. Il peut passer
d' antagoniste, dans la glande mammaire, à agoniste dans l'utérus ou stimuler les
mêmes gènes que l'E2 mais par des voies différentes. Lorsqu'il y a compétition entre
les facteurs de transcription pour ERE, on parle d'interférence ce qui conduit à un
phénomène d' insensibilité aux estrogènes puisqu' il n'y a pas d'activation ou
d' inhibition de la transcription [13]. Ce mode d'action existe pour ER vis-à-vis
d'autres éléments de réponse aux hormones (BREs). Ce n'est pas le seul cas
d'insensibilité aux estrogènes [14].
Les mécanismes d' action de l'E2 ne sont pas tous répertoriés comme le démontre la
découverte récente de récepteurs membranaires comme GPR30 [15]. La dégradation
protéolytique joue aussi un rôle important, qu'il faut connaître. En présence d'un ligand, le
récepteur se dégrade en 45 minutes, et en moins d'une vingtaine de minutes sans liaison
[16]. Dans le dernier cas, la régulation de gènes, quoique possible, peut générer un
changement infime qui sera peu ou pas mesurable.
------ - ------------- ----- --- - --- --------.1
Sentier Classique
A) Interaction simple et directe
ER comme Coactivateur
B) Interaction simple semblable à un Co-Activateur
C) Autre interaction simple semblable à un Co-Activateur
0) Complexe d'interactions multiples 1
Sentier non-génomique
E) Activation de kinases en cascade
(nucleus)
Figure 2. Complexité de la régulation des gènes par l'E2.
Adapté de l'article de David G. DeNardo et al., [17].
6
----------~ ---- ----------------~ ---- -- -- -~------
7
2. Les biopuces
La génomique fonctionnelle utilise l ' ensemble des données généré par les proj ets de
séquençage s' aidant de la génomique comparative, dans le but de décrire la fonction du
génome. Les méthodes et les outils maj eurs habituellement associés à la génomique
fonctionnelle sont: la bio-informatique, l' analyse génétique, la mesure de l' expression des
gènes et la détermination de la fonction des gènes. Les projets biologiques quantitatifs à
grande échelle, tel le «projet du séquençage humain », ont donné naissance à diverses
approches dites «-omique» venant du grec peut signifier tout ou complet. En voici
quelques-uns, en anglais, expressome, functome, metabolome, phenome et regulome. Par
exemple, le protéome fait référence à la totalité des protéines d'un organisme. Le
transcriptome est l'ensemble de toutes les unités de la transcription (ARNm) dans une
population biologique de cellules, à un temps donné. Contrairement au génome d'un
organisme qui est fixe, le transcriptome varie. Pour mieux étudier le transcriptome, comme
dans le cas où l' on veut déterminer le niveau d'expression de gènes, des techniques
capables d ' échantillonner des dizaines de milliers de molécules « d' ARNrn »
simultanément sont nécessaires,
Les biopuces sont appropriées pour l' étude du transcriptome puisqu' elles permettent
l' analyse simultanée du niveau d 'expression de milliers de gènes à un temps donné et/ou
pour un même traitement. Les étapes de conception d'une biopuce ne seront pas abordées.
Sur ce sujet, on peut toujours consulter les articles [18-19] sur les caractéristiques des
différentes plateformes utilisant la synthèse in situ, et un sommaire des avantages et
inconvénients de chacune (Tables 1 et 2 de la référence 19). Brièvement, les trois
principaux types de biopuces souvent utilisés sont:
a) Spotted cDNA microarrays (two-dye experiments). Des fragments d'ADNc amplifiés
par PCR sont déposés sur un modèle de matrice de taches (spots) recouvrant une
surface de verre traitée. Après liaison de l'échantillon avec les fragments, on procède
à l' assèchement. Un laser analyse l'image en utilisant deux longueurs d'onde
différentes, correspondant aux deux chromophores (Cy3 et CYS). On peut donc
disposer sur la même biopuce deux traitements différents avec chacun son
chromophore. Ce type de plateforme permet à l'utilisateur d'avoir plus de contrôle
8
sur la disposition des taches, et sur la correction du bruit de fond. Elles sont utiles
pour l'étude d 'un organisme dont le génome est inconnu.
b) Spotted oligonucleotide arrays. Par effet piézoélectrique, les oligonucléotides de 30-
mers pré-synthétisés sont déposés sur un film de plastique enduit de gel. L ' analyse de
l' image est semblable à celle de la plateforme Affymetrix, sauf que le bruit de fond
est plus faible.
c) ln situ-synthesized oligonucleotide microarrays. Des oligonucléotides de 60-mers
sont synthétisés par un procédé de jet d' encre. L ' avantage est qu' en augmentant la
longueur des oligonucléotides, on augmente la spécificité.
Dans la prochaine sous-section, l' accent sera mis sur les aspects techniques et fonctionnels
des biopuces d ' oligonucléotides d'Affymetrix GeneChip®, puisqu'elles ont été utilisées
dans cette étude. La seconde sous-section traite des méthodes de normalisation,
indispensables si on veut comparer les biopuces entre elles.
2.1 Aspects techniques et dynamiques de l'hybridation des sondes
Les biopuces d' Affymetrix contiennent de courtes séquences d' oligonucléotides de 25-
mers de longueur (sondes), synthétisés in situ par la combinaison de deux procédés: la
photolithographie et la chimie des oligonucléotides. Chaque sonde est localisée dans une
aire spécifique sur la biopuce (cellule de sonde). Chaque cellule contient des millions de
copies d'une séquence d'oligonucléotides spécifiques. Il est possible d'avoir de 245 ,000 à
1,000,000 sondes uniques par biopuce de 1.28 cm2.
Voici quelques particularités importantes sur les sondes et quelques notions. Illustré à la
Figure 3, un transcrit est identifié par un ensemble de sondes contenant de Il à 20 paires
de sondes (11 paires pour les biopuces utilisées dans ce mémoire). La moyenne des
intensités des Il sondes de chaque ensemble de sondes est calculée pour donner la mesure
de l' expression d'un transcrit. Chaque paire de sondes est constituée d'un bon appariement
de sonde (PM) et d'un mauvais appariement (MM). Le PM est toujours physiquement
situé adjacent à son MM. Mais les paires de sondes (PM et MM), pour le même ensemble
de sondes, sont réparties à différents endroits sur la surface de la biopuce. De cette façon, si
9
une partie de la surface est endommagée, on minimise la perte d'information associée à cet
ensemble de sondes.
Séquence de référence
5 ------~$~U~--------------------------~---------------------3 :;::;::;:
Séquence de 7; \ ~pa: de:ndeS:AD~
:;: :;:
TGATGGTGGGAATGGGTCAGAAGGACTCCTATGTGGGTGACGAGGC C TTACCCAGTCn C CTGAGGA T ACA Oligo
en-ACCCAGTCTl 'C: CTGAGGA T ACAC b~gO
Image d'intensités de fluorescence
t Paire de sondes positiv~ > MM
La paire de sondes détecte un signal
MM Cellules de sondes
(25-mer)
/M
[1 -', 1 -- '!i Iii -1 l!l ~ ila 1
t '" Cellules de sondes MM t
PM=MM Pas de différence de signal détectée
Paire de sondes négativeSMM >PM
Le signal est nonspécifique
à la séquence ciblée
Figure 3. Disposition d'un ensemble de sondes par rapport à la séquence de référence
ciblée. Le PM désigne un bon appariement de sonde (PerfectMatch) et le MM un mauvais
appariement de sondes (MisthMatch). Illustration adapté: www.Affymetrix.com.
Autre particularité, lors de la confection de la biopuce, Affymetrix tend à disposer les
séquences similaires en rangée pour faciliter la synthèse des sondes. L'impact sur
l'uniformité de la densité d'hybridation est généralement nul.
Le PM est complémentaire au segment de l'exon du gène d'intérêt. Le MM diffère du PM
correspondant par la 13e base (A devient T ou C devient G ou l'inverse). L'idéal est une
fluorescence forte pour le PM (forte intensité), et faible pour le MM correspondant. C'est
ce qui se produit lorsque la sonde est spécifique à la séquence d'intérêt.
Unique
Gene 1.v.arl.an.t A __ [ 0 ~ l l~ r--------Gene 1 Variant B
Gene2 ___ _
Common (" _s" sufflx)
Figure 4. Types d'ensembles de sondes et la spécificité de chacune.
Gene ("_a" suffix)
Référ.: www.affymetrix.comlsupportltechni calJtechnotes/mouse4 30 _ technote. pdf .
10
La Figure 4 montre différents types de suffixe associés à des ensembles de sondes. Chaque
nom des différents ensembles est accompagné d'un suffixe, un groupe de lettres associé au
nombre. Par exemple, 1412122_at est un identifiant d'un ensemble de sonde spécifique à
un seul transcrit (ce qui est préférable). Par contre, 1412122_s_at, ayant un suffixe _s_at,
est commun à plusieurs produits de la transcription et à différentes familles de gènes, et
1412122_a_at à une famille en particulier. Il existe aussi un suffixe _x_at (non représenté
sur la Figure 4). Il représente l'hybridation croisée d'au moins une des sondes de
l'ensemble de sondes. L'utilisation des sondes _s_at peut permettre de cibler
potentiellement des variants d' épissage, en plus des familles de gènes.
Le but visé est de marquer à la biotine la séquence d'ARNm (la séquence cible ARN*) qui
s'hybridera à la sonde d'oligonucléotide synthétisée sur la biopuce. Ce couple sonde
ARN* obtenu forme un duplexe de type ADN/ARN.
2.1.1 Quelques difficultés inhérentes à l'utilisation des biopuces
Bien que les concepteurs de biopuces rassurent les utilisateurs en mentionnant le fait qu'il
y a des millions de copies d'une sonde, il faut être prudent. La cartographie du génome est
constamment révisée, et les critères d'appariement fixés pour concevoir la sonde ne sont
pas parfaits. On parle maintenant, dans ce cas, d'une erreur répétée des millions de fois. De
plus, des sondes tronquées (plus courtes que prévues) peuvent apparaître. Elles sont dues à
Il
un problème lors de la conception des sondes. Lors de l ' ajout des bases A, T, C ou G, on
protège par un masque les sondes qui ne doivent pas recevoir à cette position la base en
question. À part ces sondes tronquées, d' autres problèmes sous-jacents peuvent survenir,
tels que le problème de l ' hybridation croisée, la spécificité des sondes (les extensions _at
n 'y échappent pas) s ' en trouve affectée. D ' autres problèmes techniques peuvent survenir,
la saturation et la reproductibilité en sont des exemples.
Les méthodes de normalisation parviennent à compenser de manière satisfaisante, ou en
partie, quelques-uns des problèmes techniques énumérés précédemment, mais pas toujours.
En cela, la plupart des méthodes de normalisation sont d ' une efficacité équivalente.
Cependant, elles n ' ont toujours pas réussi à réduire de manière satisfaisante le taux de faux
positifs (les gènes non régulés qui sont détectés et que l ' on croit régulés) et celui de faux
négatifs (les gènes régulés qui ne sont pas détectés). Alors que les faux positifs engendrent
des coûts inutiles reliés à la validation des données par d'autres techniques, les faux
négatifs minimiseront à tord l ' importance d'un sentier cellulaire majeur.
a) La saturation. En estimant la relation entre l'intensité du signal et la concentration du
produit de transcription, il a été démontré que le signal devenait non-linéaire en
dessous de 10 pM et au-dessus de 100 pM. Les modèles de normalisation qui ne
tiennent pas compte de la soustraction du PM-MM améliorent l ' étendu des signaux
dans les deux sens [20].
b) La reproductibilité. Mis à part le fait de déposer sur plus d'une biopuce une quantité
d'ARNm prélevée à partir d'une solution non homogène, plusieurs problèmes
peuvent expliquer la difficulté de reproduire les mêmes résultats. Citons par exemple
la faible spécificité et sensibilité de certaines sondes, l'encombrement et les
interactions possibles entre les sondes. Certains auteurs se sont interrogés sur
l ' importance de valider ou non, par une autre technique, les résultats de biopuces
[21].
c) Le taux de faux positifs et de faux négatifs. C'est un problème qu'on ne doit pas sous
estimer. Par exemple, il est de coutume, en statistique, de fixer le taux de confiance à
5%. Ceci signifie qu'avec 5000 gènes, le taux d'erreur en nombre de gènes est de
- ~~- ~----------
12
250 gènes (5% * 5000). Car le test d'hypothèse de 5% est testé sur chaque gène,
alors que dans les cas habituels l 'hypothèse est appliquée sur une seule valeur, soit la
moyenne ou la variance, par exemple d'où origine les faux positifs et les faux
négatifs? C'est en répondant à la question: « Comment fait-on pour savoir quels sont
les gènes modulés? » Différentes méthodes servent à déterminer quels sont les gènes
exprimés de manière différentielle en comparant la valeur traitement et la valeur
contrôle. Les méthodes dépendent des valeurs des intensités normalisées et donc, des
méthodes de normalisation qui elles donnent des intensités différentes. Pour
expliquer ce dernier point, imaginons deux méthodes de normalisation: A et B. Si la
méthode A calcule une valeur d'intensité brute de 1000 pour un gène sans traitement
(le contrôle) et de 2000 pour le gène avec traitement, nous concluons que, suite au
traitement, ce gène est deux fois plus régulé. Si la méthode B donne 1100 pour le
contrôle et 1900 pour le gène traité, nous concluons que le gène est régulé de 1.72
fois. Si le seuil d'acceptation que l'on s'est fixé est de 2.00 alors le gène est exclu. Si
la méthode de normalisation surestime la valeur réelle nous obtenons un faux positif,
et un faux négatif dans le cas d'une sous-estimation de la valeur.
2.2 Étapes de transformation des données
Avant de présenter de manière plus détaillée ce qui caractérise chacune des méthodes de
normalisation, voici d'abord globalement les grandes étapes du traitement statistique des
données. Ce que nous cherchons à obtenir, une fois toutes les étapes d'analyse effectuées,
c'est une liste de gènes qui permettra de caractériser l'effet d'un traitement. La
transformation des données d'intensités en données d'expression s'effectue, globalement
en 3 étapes: la correction du bruit de fond, la normalisation (iuncluant ou non la correction
du PM), pour ensuite déterminer la valeur d'expression de chaque gène.
Le mot bruit, en anglais « noise », est un terme utilisé dans un sens large, faisant référence
aux effets indésirables qui s'additionnent à la variabilité biologique que l'on désire
mesurer. Il peut être de toutes sortes. Souvent ce mot désigne le « bruit optique» dû au
scanner car même si un échantillon est dépourvu d'ARNm, l'analyseur détectera un faible
signal qui sera attribué à de la fluorescence, sur la biopuce. Le terme bruit de fond est plus
13
large car il peut aussi s' appliquer aux biopuces dont la technologie ne nécessite pas le laser
pour effectuer la mesure de fluorescence.
La normalisation consiste à corriger les différences systématiques sur la biopuce, ou sur
plusieurs biopuces simultanément afin de les comparer. Plusieurs méthodes de
normalisation sont disponibles, par exemple, loess [22], invariantset [23], qspline [24 ],
quantile [25] , et des modèles statistiques non paramétriques [26]. La question est
incontournable: laquelle choisir? Pour la correction du PM, chaque méthode de
normalisation traite différemment les sondes PMs. Certaines méthodes ajustent pour le PM,
certaines ne le corrigent pas et d' autres vont soustraire à sa valeur celle du MM. En plus de
ces derniers ajustements, certaines méthodes introduisent le concept d ' affinité de sonde qui
est basé sur l'hypothèse que lors de l'hybridation, les sondes n'ont pas toutes la même
affinité pour une séquence ciblé.
Pour aider à la compréhension en statistique, plus il y a de données et plus on se rapproche
de la loi normale. Cependant, les données de biopuces ne suivent pas une loi normale. Par
conséquent, toutes les méthodes de normalisation doivent transformer les données pour se
rapprocher le plus possible d 'une loi normale ce qui facilite de beaucoup l' analyse
statistique.
Finalement, un terme qui vient souvent lorsque l'on parle de normalisation est celui de
« valeur d'expression. » Cette étape consiste à calculer la somme des intensités de chacune
des sondes (11-20), de l'ensemble de sondes, pour obtenir la valeur d'expression du gène.
Autrement dit, il s'agit de quantifier l'intensité de fluorescence en quantité d'ARNm
produit par les gènes modulés. La prochaine sous-section montre le cheminement qui a
conduit à l'amélioration des méthodes de normalisation.
2.3 Algorithmes de normalisation (modèle linéaire et modèle logarithmique)
2.3.1 Modèle d' Affymetrix
14
En 1999, MAS 4.0 d'Affymetrix offrait une méthode appelée «Average Difference»
(AvDiff ou AD). Pour chaque biopuce on calculait la moyenne des intensités des paires de
sonde en effectuant la soustraction du PM, conjointement à l'utilisation d'une moyenne
robuste pour se prémunir des valeurs extrêmes. L'équation du modèle de AvDiff est:
Avec j = 1, ... , Jet i=1 , ... ,1
La lettre « i » représente la biopuce, «j » la paire de sonde, le paramètre Si représente la
quantité d'expression et «Eij» les erreurs de diverses provenances pour la paire de sonde.
Le problème avec A vDiff est que l'estimation est appropriée si le terme représentant
l'erreur «Eij » est de variance égale entre les paires de sondes. Ce qui n'est pas toujours le
cas. Comme on dit en statistique, l'hypothèse de la variance égale est alors violée. En fait,
plus la moyenne des intensités est élevée, et plus la variance augmente [27]. C'est une
source de bruit pour les produits de la transcription faiblement exprimés qui ne tient pas
compte de l'affinité de sonde. De plus, MAS 4.0 génère des valeurs d' expression
négatives. C'est là que le modèle logarithmique s'impose puisqu'il ne génère que des
valeurs positives. En 2002, se basant sur les succès des méthodes concurrentes, Affymetrix
remplace le modèle linéaire de MAS 4.0 par la transformation logarithmique permettant
ainsi de réduire la dépendance de la variance sur la moyenne. Ce modèle s' appelle MAS
5.0 :
Log(PMij- CTij) = log(SD + Eij, Avec j = 1, ... , J. i =}, ... ,/
Le signal est l'anti-Iog d'une moyenne robuste (Tukey's biweight) des valeurs de log(PMij
- CTij). « CT » représente la valeur du MM. Elle est ajustée si elle ne répond pas à la
condition MM<PM afin d'éviter d'obtenir des valeurs négatives, difficiles à interpréter. En
plus de la soustraction du MM, MAS 5.0 utilise un seuil alpha (alpha <0.04) au-delà
duquel un gène est considéré absent. Il est important de mentionner que le terme absent ne
veut pas dire que ce gène n'est pas modulé. Il signifie plutôt qu'il est situé dans les limites
de détection tel que le stipule le modèle. Ainsi, il est moins probable qu'il soit régulé à la
valeur qu'on lui a associée. On peut le voir comme un seuil critique i.e un « P value»
associé à la valeur moyenne des intensités des sondes. Dans le cas contraire, le gène est dit
présent. Affymetrix suggère de ne pas considérer les gènes absents comme étant régulés.
La même valeur de seuil alpha est appliquée à toutes les sondes alors que certaines sondes
- -- - - - -
15
ont un comportement qui diffère de la majorité. Un seuil alpha différent pour chaque sonde
conviendrait mieux, mais en pratique ce serait difficilement applicable.
2.3.2 Modèle dChip
Le modèle de Li et Wong [28] est basé sur le principe qu'au niveau de la variance, la
variation d'une sonde spécifique entre plusieurs biopuces, est beaucoup plus petite que
celle considérée entre les sondes d'un même ensemble de sonde c'est-à-dire une déviation
standard jusqu'à cinq fois plus petite. Ceci suggère un fort effet d'affinité de sonde. Li et
Wong proposent d'ajouter au modèle le concept d ' affinité de sonde représentée par le
paramètre <pj. On obtient le modèle multiplicatif suivant:
PMi} -MMi} = 8i<Pj + ti}, Avec i = l, ... ,!, et j = 1, ... , J
Cependant, pour estimer « <pj » convenablement, il faut avoir suffisamment de biopuces. Le
modèle est basé sur l'estimation de la vraisemblance maximale de l'expression du
paramètre 8i sous l'hypothèse que l'erreur suit une distribution normale. Le logiciel porte
le nom de dChip (www. biostat.harvard.edulcomplab/dchipl).
2.3.3 Modèle Robust Multichip Analysis (RMA)
Par la suite, une procédure de normalisation et de correction du bruit de fond [25] [27] ont
été proposées. Le Robust Multichip Analysis (RMA) se différentie en proposant la
correction du bruit de fond, et la normalisation au niveau des données de sondes en
utilisant plusieurs biopuces. Ceci améliore la mesure de l'expression. Ce modèle est additif
et linéaire et les valeurs logarithmiques sont utilisées :
T(PMij) = ei + aj + tij, Avec i = 1, ... , l, et j = 1, ... ,1.
« T » représente les intensités logarithmiques du PM, avec un bruit de fond corrigé et les
valeurs normalisées. « ei » est le log2 de la valeur d'expression pour les biopuces (i = 1, ... ,
1). « aj » représente les effets d'affinité des sondes G = 1, ... , J), et le paramètre « Eij »
symbolise l'erreur. Ce modèle additif est différent de celui de Li et Wong puisqu'il se
libère de la dépendance de la variance moyenne. On obtient ainsi plus de performance dans
les basses intensités. Le mot « Robuste» de RMA vient de l'utilisation de la médiane polie
«median polish» utilisée pour estimer, sur une échelle logarithmique, les valeurs
16
d'expression pour « ej ». La médiane polie est plus robuste qu'une analyse de variance
comme ANOV A. La méthode RMA ne tient pas compte du MM. Certaines études ont
démontré que les méthodes qui utilisent le PM seulement donnent une valeur plus juste que
si on soustrayait la valeur du MM [29].
Les trois principales raisons pour ne pas utiliser le MM sont:
a) Le MM contient de l ' information non spécifique mais aUSSI de l ' information
spécifique.
b) Le mécanisme pour expliquer l'hybridation non spécifique n'est pas bien compris.
c) Le MM est coûteux et prend beaucoup d'espace sur la biopuce.
2.3.4 Modèle GeRMA
En 2004, RMA devient GCRMA [30]. L ' idée derrière GCRMA découle en partie des
travaux de Naef et Magnasco [31-32]. Ces derniers proposent une solution pour calculer
l ' hybridation non spécifique (NSB) afin de déterminer l'affinité de sonde selon la position
des bases A, C, G, T dans la séquence et le contenu en G/C. En fait, le NSB est dû à
l ' hybridation partielle entre les brins imparfaitement complémentaires, les énergies de
liaison, et les effets dûs au marquage des bases. Dû à la triple liaison, les bases G/C sont
plus fortement liées lors de hybridation que les bases AIT.
2.3.5 Modèle Positional-Dependent-Nearest-Neighbor (PDNN)
Zhang et al, en 2003 croient qu'on peut améliorer les modèles en considérant les
interactions moléculaires. Ils ont publié le modèle Positional-Dependent-Nearest-Neighbor
(PDNN) [33]. Selon l'opinion de Naef et Magnasco sur ce modèle, le point faible de
l ' approche est le peu de puissance prédictive ajoutée.
2.3.6 Modèle Probe Logarithmic Intensity ERror estimation (PLIER)
En 2004, Hubbell H., (le principal statisticien chez Affymetrix) publie sa méthode
PLIER [34] Probe Logarithmic Intensity ERror estimation (PLIER). Cette méthode semble
supérieure à celle de MAS 5.0 parce que tout comme GCRMA, PLIER tient compte de
l ' affinité de sonde. Cependant, contrairement à GCRMA, PLIER offre le choix de
17
soustraire ou non le MM de la valeur du PM. Pour évaluer l ' affinité de sonde, il faut avoir
plusieurs biopuces. Le résultat est un signal calculé à partir de l'ensemble des sondes, avec
plus de performance dans les basses et hautes intensités. Dans les hautes intensités, l'erreur
est approximativement proportionnelle à la concentration de la cible. Dans les basses, elle
est approximativement proportionnelle à l'intensité de l'hybridation du bruit de fond [35].
PLIER utilise un « M-estimator», avec « M» pour «maximum likelihood estimation».
Brièvement, c'est une méthode robuste définie par une fonction qui est utile lorsque l ' on
est confronté à des données extrêmes puisque la valeur est réajustée à chaque étape du
calcul de la variable.
2.4 Avantages et inconvénients des procédures de normalisation
Généralement, les méthodes de normalisation se basent sur des hypothèses à valider ou à
invalider à partir des données. Les deux hypothèses les plus courantes sont que
l'expression de la plupart des gènes ne change pas à travers les conditions de traitement et
que le nombre de gènes surexprimés est sensiblement égal au nombre de gènes inhibés, et
ce pour les mêmes conditions.
Pour la normalisation, les approches statistiques les plus populaires sont le «Global
scaling », «Rank invariant », «cyclic loess» ou «Quantile-normalization ». Les
principaux avantages et inconvénients de chaque approche sont les suivants.
a) «Global scaling method» est l'approche utilisée pour MAS 4.0 et MAS 5.0. Il
s'agit de mettre à échelle les biopuces à normaliser par rapport à l'intensité de la
moyenne tronquée, ou « trimmed means », au lieu de la moyenne conventionnelle.
La moyenne tronquée est obtenue après avoir enlevé un certain pourcentage des
valeurs situées aux extrémités. Par exemple, pour une moyenne tronquée de 50%,
25% des valeurs sont enlevées à l'extrémité inférieure et 25% à l'extrémité
supérieure. Autre exemple, pour une moyenne tronquée de 100%, on obtiendrait la
médiane puisqu'on enlèverait 50% des valeurs au-dessus et 50% en dessous. La
moyenne tronquée est donc utilisée parce qu'elle est moins sensible aux valeurs
extrêmes que la moyenne conventionnelle faite avec l'ensemble des valeurs. Cette
18
approche n'est pas suffisamment robuste pour traiter la tendance à la non-linéarité
entre les biopuces.
b) (( Cyclic Loess» (Dudoit et al [22]). Contrairement à la méthode précédente, celle
ci évalue la variabilité de la sonde au niveau de l'ensemble des biopuces que l'on
désire comparer afin d'ajuster, si nécessaire, une courbe de normalisation non
linéaire à l'aide d' un diagramme. La normalisation est effectuée entre toutes les
biopuces. L ' avantage est que la normalisation s' effectue de façon globale, par
rapport à la biopuce de référence. L'inconvénient est le temps d'exécution du
programme pour normaliser puisque le traitement entre les biopuces s' effectue
deux à deux.
c) (( Rank invariant» (utilisé par la méthode dChip) est une méthode non linéaire.
Pour chaque biopuce de traitement, on veut un ensemble de gènes possédant un
rang conservé entre la biopuce de référence et la biopuce de traitement. Cet
ensemble de gènes, dit de rang invariant, est considéré comme étant des gènes non
différentiellement exprimés. Autrement dit, les deux groupes sont homogènes au
niveau de l'expression, donc ils ne sont pas modulés.
Chaque biopuce est normalisée contre la biopuce de référence en ajustant une
courbe de normalisation non linéaire de l'ensemble de gènes invariants. La
méthode est plus robuste que « Cyclic Loess », spécialement lorsque la distribution
des expressions des gènes sur les biopuces est différente. On peut utiliser ou non le
MM. Le désavantage est la sélection de la biopuce de référence, puisque c' est sur
elle que tout repose. Par défaut on peut choisir la biopuce représentant la médiane
des biopuces.
d) (( Contrast » (Âstrand, 2003) [36]). Pour normaliser il faut placer les données sur
une échelle logarithmique. Les données seront transformées sur une base
orthogonale. Les courbes de normalisation seront ensuite ajustées de façon à
reposer sur une même ligne horizontale. D'une façon générale, lorsque l'on
normalise, on suppose habituellement une variabilité uniforme pour l'ensemble des
biopuces qui sera normalisé. Il suffit de faire les corrections sur chacune des
biopuces pour les ramener au même niveau. L'avantage de cette méthode sur celle
19
de Dudoit « Cyclic Loess» (bien qu'en fait, elle en est une extension) est sa rapidité
puisqu'elle utilise un sous-ensemble de sondes.
e) « Quantile-normalization » Le but est de normaliser les biopuces de manière à ce
que les intensités des sondes aient la même distribution. Cette approche est
appropriée par le fait que l'on considère la quantité totale de gènes et que
généralement seul un petit nombre d' entre-eux seront modulés, sinon on perdrait de
l' information significative. C'est un algorithme nonparamétrique qui rapidement
normalise un groupe de biopuces. On caractérise cette méthode de robuste,
puisqu'elle performe bien en cas de non-linéarité entre les biopuces. En effectuant
la moyenne des quantiles on réduit de beaucoup la variabilité, avec peu de biais.
Ces dernières années, beaqucoup de publications discutent de la performance des méthodes
de normalisation. Elles concluent souvent en faveur des méthodes RMA et GCRMA. En
fait, toutes les méthodes ont leurs forces et leurs faiblesses. MAS 5.0 performe mieux que
RMA quand les zones de forte hybridation contrastent avec des zones de faible
hybridation. En termes de précision, dans la mesure des faibles niveaux d'expression, les
méthodes de normalisation qui performent le mieux seraient: GCRMA> MAS 5.0 > RMA
[27]. L'explication possible est que GCRMA tient compte d'un ajustement dû à
l 'hybridation non spécifique dans le calcul du bruit de fond. Cependant, sur l'ensemble des
niveaux d'expression, RMA serait supérieur à GCRMA et à MAS5.0 [37]. MAS5.0 est
toutefois, plus linéaire sur une large gamme de niveaux d'expression que RMA et dans
cette situation GCRMA est quand même très performant puisqu'il tient compte du fait que
chaque sonde n'a pas la même affinité pour une séquence donnée, d'où la sensibilité
variable selon le niveau d'expression du produit de transcription. En considérant le contenu
en GC de la sonde, GCRMA réduit la variance causée par « l'effet de marquage » dûe à la
fluorescence.
Outre ces deux études, [30] [37], RMA est reconnu pour bien pondérer dans les basses
intensités. Cependant, MAS 5.0 surpasse RMA dans le cas d' artéfacts lorsque la distorsion
sur la biopuce est importante. Visible à l'observation de l'image de la biopuce, la
distorsion est occasionnée par l'existence de zones de fortes hybridations qui contrastent
20
parmi des zones de faibles intensités (biais régionaux). MAS 5.0 corrIge ces biais
régionaux mieux que RMA en divisant la surface de la biopuce en 16 zones évaluant
chacune à tour de rôle avec les autres zones alors que RMA tend à pondérer les sondes trop
fortes ou trop faibles en se basant sur l ' ensemble des intensités des sondes des autres
biopuces de l ' expérimentation. Ainsi, si le nombre de sondes de fortes et de faibles
intensités sont équivalentes, RMA pondérera à la baisse la moitié correspondant aux fortes
intensités, et ne tiendrait pas compte de la moitié restante. Par contre, l ' utilisation d 'un
facteur appelé « scaled factor », permettera à MAS 5.0 de pondérer. Dans le cas où la
distorsion est moyenne ou faible, RMA surpasse MAS 5.0 [38]. C ' est un biais qui, non
considéré, pourrait potentiellement introduire un facteur de discordance entre les études de
comparaisons de méthodes. Les diverses méthodes de normalisation peuvent être plus ou
moins affectées par ces biais régionaux. Pour terminer, il est important de mentionner que
le choix de la méthode de normalisation affecte la détermination des gènes
différentiellement exprimés.
3. Définition du problème et approches expérimentales
3.1 Problématique
En science, différentes technologies sont disponibles pour obtenir des résultats qUI
serviront à valider une hypothèse ou à répondre à une question précise. Contrairement à
une étude centrée sur un ou deux gènes, évaluer l ' ensemble des niveaux d'expression des
gènes produits de la transcription dans un organisme in vivo est plus problématique. La
conception d'une telle expérience nécessite une approche structurée à plusieurs niveaux.
Bien que je n'ai pas personnellement participé à ces étapes, elles font tout de même parties
de la problématique.
Dans le choix d'une technologie pour évaluer, à l'ensemble du transcriptome, l ' action
d'une hormone, le qRT_PCR aurait été un choix qui se serait avéré assez coûteux et
laborieux principalement dû à la sélection des amorces pour des milliers de séquences. Par
contre, les biopuces commerciales s'avèrent un choix judicieux puisqu'elle permettent de
mesurer l ' expression de la quasi totalité des gènes d'un organisme par l'intermédiaire de
21
milliers de sondes d'oligonucléotides complémentaires des séquences d 'ARNm de
l ' échantillon que l'on désire mesurées. Sans cette technologie, cette étude aurait été
difficile.
Dans le choix du modèle expérimental, la souris est un modèle de choix applicable à
l ' humain puisque le génome de la souris est complètement séquencé. De plus, l ' homologie
élevée entre le génome de la souris et celui de l 'humain permet l ' identification de la
plupart des gènes chez l'humain par leur orthologue chez la souris. En fait, 99% des gènes
de la souris ont un orthologue chez l 'humain. Afin d'éviter la présence d 'un biais dû à la
variabilité génétique des souris, l'ARNm provenant d ' un groupe de souris recevant le
même traitement a été utilisé. De plus, de façon à enlever le plus de variables nuisibles, les
souris se devaient d'être sans ovaire et synchronisées dans leur cycle, traitées et sacrifiées
sur une courte période de temps. La qualité des échantillons et l'état des biopuces (surface
abîmée) ont été vérifiés ainsi que la qualité de l'hybridation.
Une fois ces étapes complétées, c ' est à ce moment qu' a débuté ma tâche. Elle consistait à
identifier les gènes modulés par l'E2 dans la glande mammaire de souris suite à un
traitement de 1h, 3h, 6h, 12h, 18h et 24h. Les courbes des profils d'expression et la
distribution des gènes régulés par processus cellulaires ont permis de répondre à cette
question. De plus, il était impératif d'évaluer le niveau de confiance accordé aux données
puisque la qualité des profils d'expression et par conséquent, les processus cellulaires
identifiés en dépendait. Ainsi, l'impact du choix de la méthode de normalisation influe
grandement sur l ' identification des gènes régulés et leur profil d'expression. C'est un
problème important puisque les courbes des profils d'expression seront bâties à partir des
intensités normalisées des sondes. Une partie importante de ce mémoire porte donc sur une
meilleure compréhension des algorithmes de normalisation. Les méthodes MAS 5.0 et
RMA ont été comparées en ce qui concerne le nombre de gènes considérés exprimés de
façon différentielle et l'intensité des niveaux d'expression.
------- -
22
3.2 Approche expérimentale
Les biopuces d'expression de souris GeneChip d'Affymetrix de type MOE_ 430 ont été
utilisées. Elles contiennent 45,037 ensembles de sondes dont 21,103 « expressed sequence
tags » (ESTs).
L'échantillon d'ARNm provient d'un groupe de 12 souris âgées entre 12 et 14 semaines
(vierges et sevrées). Six biopuces correspondant aux temps de traitements suivants: 1, 3, 6,
12, 18 et 24 heures sont utilisées pour tracer les profils d'expression. Étant donné
l' importance du contrôle (GDX) pour déterminer le sens de la régulation des gènes
(modulés positivement ou négativement), deux contrôles (GDX), constitués chacun de
l'ARNm de deux groupes (G1 et G2) de 10 souris chacun ont été utilisés. La moyenne des
deux contrôles a été utilisée dans le calcul des niveaux d'expression.
Les méthodes de normalisation RMA et MAS 5.0 ont été appliquées conformément aux
procédures standard suggérées par les concepteurs. Seul l'ajustement du rapport
signal/bruit de fond est adapté à la plateforme Affymetrix du Centre de recherche du
CHUQ/CHUL.
Une approche similaire à la méthode « low fold change» (LFC) de Mutch et al [39] a servi
à déterminer quels étaient les gènes exprimés de façon différentielle entre le groupe
traitement et le groupe contrôle. En divisant la valeur d'intensité brute du gène par la
valeur d' intensité brute du contrôle, on obtient le Nombre de Fois que le gène est modulé
(NF ou ratio). Par exemple, une valeur de NF de +2.00 signifie que le gène est modulé
positivement par rapport à la valeur d'intensité du contrôle. La détermination des gènes
exprimés de façon différentielle en vue de la confIrmation par qRT_PCR s'est fait à l'aide
des équations 1 et 2. La valeur d'intensité considérée est représentée par X.
RMA : LFC= ±1.59 (éq. 1)
MAS 5.0 : LFC= ±1.70 + 97.5/X (éq.2)
LFC réfère à la méthode appelée Low F old Change. À partir d'études préliminaires sur la
comparaison des données de qRT_PCR à celles des biopuces, une valeur de seuil minimal
23
du NF a pu être déterminée. En bas de ce seuil, il y avait moins de concordance entre les
deux ensembles de données. Pour la méthode RMA, cette valeur minimale a été fixée à
±1.59.
Avec la méthode MAS 5.0, un facteur de correction (97.5/X) sur la valeur du ratio calculée
a été nécessaire. Ce facteur de correction n ' est applicable que sur les basses intensités.
C' est dû au fait que le bas niveau de fluorescence obtenu pour certains gènes paraît moins
significatif. Si vous aimez mieux, ce n ' est pas très rassurant sur le point de la validité de la
mesure prise. Certains enlèvent carrément les gènes ayant des intensités sous un certain
seuil, par exemple, sous le seuil de 150 unités d ' intensité. Dans notre cas l ' option de
corriger le NF permettait de ne pas enlever de gènes. Un NF par exemple de 5.00 dans les
basses intensités devenait après application du facteur de correction un NF de 2.00. Il est
plus approprié de donner moins de poids à un ratio dans les basses intensités que dans les
fortes.
La méthode de groupement QT -clustering disponible avec le logiciel GeneSpring 6.1
(Silicon Genetics, Redwood City, CA, USA) a été utilisée pour tracer les profils
d'expression des gènes. Les profils ont été regroupés en tenant compte du coefficient de
corrélation « r » de Pearson sur une échelle entre 0 et 1. Les regroupements ont été faits
avec différentes valeurs de « r » soit 0.9, 0.7 et 0.5. Une superposition parfaite des courbes
correspond à une valeur de r= 1. Pour la représentation graphique, on prend la médiane des
intensités du gène à tous les temps, incluant les valeurs des contrôles (GDX) qui eux sont
aussi situés sur l ' axe des « x » au temps zéro. Sur l'axe des « y », la médiane des intensités
se voit attribuer la valeur 1 sur l'axe logarithmique. Les autres valeurs d' intensités de
chacun des gènes sont distribuées de part et d'autre.
Basé sur la nomenclature de GeneOntology, le programme MappFinder [40] a été utilisé
pour regrouper les gènes par processus cellulaires. Ce logiciel permet d'associer à chaque
processus un indice calculé ( z score) de manière à les ordonner par ordre décroissant
d' importance. Une valeur supérieure à ce seuil signifie que le résultat n ' est pas dû
seulement au hasard. Seules les valeurs de « z score» positives ont été retenues puisque les
24
valeurs négatives représentent les termes sous représentés. Théoriquement, un « z score»
de 1,96 correspond à un « P value» de 0,05. Pour être plus rigoureux, nous avons retenu
les processus cellulaires ayant, en plus du « z score» de 2.00, la présence d' au moins 2
gènes régulés. La grandeur de la valeur de « z score» dépend de l'écart entre le nombre de
gènes modulés et le nombre de gènes mesurés sur la biopuce. Un même gène peut
appartenir à plus d' un processus.
25
CHAPITRE 1 Profils d'expression des gènes régulés par la 17fl-estradiol dans la
glande mammaire de souris.
1.1 Matériel et méthodes
Animaux et traitement
Des souris de souche C57BL6 (Charles River (St-Constant, Canada), âgées de 12 à 13
semaines, acclimatées pendant une semaine, ont été utilisées. Les animaux ont été disposés
dans une pièce à environnement contrôlé (température: 22 ± 3 oC ; humidité: 50 ± 20 %;
cycles: 12 h de lumière et 12 h de clarté). Les souris ont libre accès à l'eau et à la
nourriture (Lab Diet 5002 (pellet), Ralston Purina, St-Louis, MO). L'expérience a été
conduite dans un aménagement pour animaux approuvé par le Conseil Canadien sur les
Soins aux animaux (CCSA) et l'Association chargée de l'Évaluation et l'Accréditation des
Soins pour les Animaux de Laboratoire, L'étude a été accomplie en accord avec le Guide
CC SA pour les Soins et l'Utilisation des Animaux Expérimentaux.
Les animaux pesant entre 18.6 et 25.2 g (moyenne de 21.9 g) ont été répartis selon leur
poids corporel et séparés en 8 groupes de 12 animaux chacun: groupe 1: Gonadectomie
(GDX) contrôle (pool 1); groupe 2: GDX contrôle (pool 2); groupes 3 à 8: GDX + 17~
estradiol (E2; 0.05 J.lg/souris). Jour 1 de l'étude, les animaux ont subi une ovariectomie
bilatérale (GDX) sous anesthésie d'isoflurane. Jour 8 de l'étude (24 heures avant la
nécropsie, les groupes 1 et 2 de souris ont reçu une simple injection sous-cutanée (0.2
ml/souris) du véhicule seul (5 % ethanol-0.4 % de méthylcellulose) alors que les groupes 3
à 8 ont reçu une dose physiologique d'E2 (0.05 Ilg mg/souris) afin de renverser à 100%
l'effet de l'ovariectomie en fonction des temps suivants avant la nécropsie: groupe 3: 1 h ;
groupe 4 : 3 h; groupe 5 : 6 h; groupe 6 : 12 h; groupe 7 : 18 h; groupe 8 : 24 h.
Collection du tissu
Jour 8 de l'étude, les souris, sous anesthésie d'isoflurane, sont devenues exsangues par
excision de l'aorte abdominale, avant la dislocation cervicale. Des morceaux de la glande
mammaire inguinale ont été prélevés des deux côtés de la souris, et rapidement congelés
dans l'azote liquide. Pour chaque groupe, les morceaux prélevés de la glande mammaire
~~~~~~~~----~ ~~ ----- - ~~~
26
provenant des 12 souris furent groupés dans le même tube. Les tissus furent gardés à -80
oc jusqu'à l'extraction de l'ARN.
Isolation de 1 JARN et Hybridation des Biopuces
L'ARN total du tissu a été isolé en utilisant du Trizol (Invitrogen, Burlington, ON, Canada)
en suivant le protocole du manufacturier. L'ARN total a été converti en ADNc par
incubation avec la SuperScript II Reverse Trranscriptase (Invitrogen) et l' oligo T7 -oligo
d(T)24. L'ADNc généré a été extrait au phénol/chloroforme, précipité à l'éthanol et
resuspendu dans de l'eau traitée au diéthyl pyrocarbonate. L'ADNc a été transcrit in vitro
en utilisant le T7 Bio-Array High Yield RNA Transcript Labeling kit (Enzo Diagnostics,
Farmingdale, NY) pour produire de l'ARNc biotinylé. L'ARNc biotinylé a été purifié avec
le RNeasy Mini Kit (Qiagen, Valencia, CA) selon le protocole du manufacturier. L'ARNc
purifié a été fragmenté en 30- à 200-mer, en utilisant un tampon de fragmentation (100
mM potassium acetate-30 mM magne sium acetate-40 mM Tris-acetate, pH 8.1), pendant
20 min à 94°C. La qualité de l'ARN total, la synthèse de l'ADNc, l'amplification de
l' ARN c, et la fragmentation de l' ARN c ont été effectués sur électrophorèse sur capillaire
(Bioanalyzer 2100; Agilent Technologies, Palo Alto, CA).
Les sondes d'ARNc ont été hybridées sur les biopuces 430_2.0 de Genechip (Affymetrix,
Santa Clara, CA). L'ARNc fragmenté a été incubé avec un tampon d'hybridation lx (0.1
mg/ml d'ADN de sperme de hareng, 0.5 mg/ml de BSA acétylé, 5 nM d'oligonucleotide de
contrôle B2) et une solution de contrôle d'hybridation d'eukaryote (1.5 pM BioB, 5 pM
BioD, 25 pM BioD, et 100 pM cre) pendant 16 h à 45°C avec une rotation constante (60
rpm). La sonde d'ARNc provenant du groupe contrôle a été hybridée sur deux biopuces
alors que la sonde d'ARNc correspondant à chaque temps a été hybridée sur des biopuces
séparées. La station fluidique 400 Genechip d' Affymetrix a été utilisée selon le protocole
EukGE-WS2A v4. Le marquage a été efffectué avec un conjugué de streptavidine et de
phycoerythrine (SAPE) suivis d'une amplification avec un anticorps anti-streptavidine
biotinylé et par un second cycle de solution SAPE. Les biopuces ont été balayées par le
Scanner Genechip 3000 (Affymetrix). Les intensités du signal pour la B-actine et les gènes
GAPDH ont été utilisées comme contrôle de qualité. Le ratio des intensités de fluorescence
27
pour les parties 5' et 3' de ces gènes domestiques était inférieur à 2. Les fichiers CEL sont
disponibles sur Gene Expression Omnibus (GEO, NCBI) à l'adresse suivante:
www.ncbi.nlm.nih.gov/geo/.
Méthode pour déterminer quels sont les gènes modulés de façon significative
La détermination des gènes exprimés de façon différentielle s'est faite à l ' aide des
équations suivantes :
RMA: LFC= ±1.59
MAS 5.0: LFC= ±1.70 + 97.5/X
En divisant la valeur d'intensité brute du gène par la valeur d'intensité brute du contrôle,
on obtient le NF.
Ces valeurs de NFs représentent les seuils minimums critiques pour qhacune des méthodes.
Elles démontrent aussi qu'un NF de ±2.00 pour une méthode ne correspond pas à la même
valeur pour l'autre méthode. Afin de s'assurer d'analyser des gènes fortement modulés
suite au traitement par E2 dans la glande mammaire, dans l'une ou l'autre des méthodes,
nous avons considéré les gènes ayant un NFs 2:2.00 comme étant différentiellement
exprimés.
Quantification de l'expression par qRT_PCR
La méthode de q RT _ PCR [41] a été utilisée pour quantifier et confirmer l'expression des
gènes. Une quantité de 30 ug d'ARN total ont été extraits (compagnie Trizol) et traités à la
DNAse1 (Qiagen), puis purifiés avec Rneasy Min Eluate Cleanup (Qiagen) et dosés au
spectrophotomètre. La synthèse des ADNc a été effectuée en utilisant un oligo dT, 5 ~g
d'ARN total et 200U de l'enzyme Superscript III (Invitrogen) suivie d'une purification
avec PCR purification Kit (Qiagen). La quantification en temps réel des gènes sélectionnés
a été faite en utilisant un gène de référence, Hprt1, et un contrôle d'ADN génomique, à
partir d'une quantité d'ADNc correspondant à 20 ng d'ARN total. L'appareil est le Light-
28
Cycler et la trousse LightCycler FastStart DNA Master SYBRGreen l (Roche) aux
conditions de PCR, en effectuant 40 cycles :
95°C/10 sec, 55-65°C /5sec, 72°C /7-11 sec et 80°C /3 sec.
Classification des gènes par processus biologique de Gene Ontology
Basé sur la nomenclature de GeneOntology, le programme MappFinder [40] a été utilisé
pour regrouper les gènes par processus cellulaire.
Classification des gènes selon les profils d 'expression par regroupement
La mé"thode de groupement QT -clustering disponible avec le logiciel GeneSpring 6.1
(Silicon Genetics, Redwood City, CA, USA) a été utilisée pour tracer les profils
d'expression. Les profils ont été regroupés en tenant compte du coefficient de corrélation
« r » de Pearson de 0.9.
1.2 Résultats
1.2.1 Sélection des gènes différentiellement exprimés
1.2.1.1 Par les méthodes de normalisation MAS 5.0 et RMA
Une fois les intensités brutes extraites des biopuces et normalisées soit par la méthode
RMA ou la méthode MAS 5.0, l'équation 1 a été appliquée sur les données de RMA et
l'équation 2 sur celles de MAS 5.0 afin de sélectionner les produits de la transcription
différentiellement exprimés. En tout 308 produits de la transcription ont démontré une
régulation d'au moins 1.7 fois à au moins un des temps de traitement à l' E2 selon la
méthode de normalisation MAS 5.0. Cependant, conformément à la procédure
recommandée par MAS 5.0, il fallait que le « P value» associé aux valeurs d'intensité soit
inférieur à 0.04 i.e que le signal soit considéré présent. Ainsi, il semblait approprié de
retirer les produits de la transcription dont la valeur moyenne des intensités des sondes a
été classée absent. Ce sont des produits de la transcription situés sous le seuil fixé de
détection. Pour mieux comprendre le rejet des gènes absents voyons la Figure 5. Elle
représente la répartition des intensités brutes des produits de la transcription sur une
29
biopuce par rapport aux intensités brutes de ces mêmes produits de la transcription sur une
biopuce contrôle selon le classement des signaux absents ou présents.
Les gènes classés présents aux 7 temps de traitements (incluant le contrôle) sont au nombre
de 18,377 gènes. De même, 19,927 gènes absents ont été sélectionnés pour figurer dans ce
graphique, mais seulement les valeurs obtenues à 3 hrs ont été illustrées. Les lignes
extérieures et parallèles représentent les NF=+2.00 et NF=-2.00, et la ligne au centre
représente le NF=1.00.
A) Signaux classés absents
1000
100
.! 2 n ~ ·in
10 c .! oS
0.1 10 100 Intensité brute
.! 2 ..a ~ ·in c .! oS
1000
B) Signaux classés présents
10000
1000
100
100 1000 Intensité brute
10000
Figure 5. Exemple de la répartition des intensités brutes des produits de la transcription sur
une biopuce (temps de traitement à 3 hrs) par rapport aux intensités brutes de ces mêmes
produits de la transcription sur une biopuce contrôle selon le classement des signaux
présents (A) ou absents (B).
30
On voit que les intensités des sondes classées «absents» sont faibles, en bas de 100 unités
d' intensité pour la majorité donc, moins significatives que lorsque les intensités sont fortes.
Par contre, les produits de la transcription classés absents ont des NF plus élevés que les
gènes présents. Mais étant en majorité répartis dans les basses intensités les «absents» sont
beaucoup moins significatif que les présents. De plus, les signaux classés présents sont
mieux répartis et la majorité sont situés dans les fortes intensités (supérieurs à 100 unités
d' intensité). Les présents sont ainsi beaucoup plus significatifs que les signaux absents.
De plus, puisqu'un des objectifs de l' étude était d' établir des profils d' expression de gènes
régulés par la 17f3-estradiol sur une période de 24 heures, un « P value» significatif devait
s'appliquer sur les valeurs d' intensité aux 6 temps de traitement soit 1h, 3h, 6h, 12h, 18h,
et 24h, incluant les deux contrôles. En tout, 248 gènes ont démontré une régulation d'au
moins 1.7 fois à au moins un des temps de traitement à l 'E2 avec un« P value» significatif
à tous les temps. Parmi ceux-ci, 216 gènes avait une régulation d' au moins 2 fois. Par la
méthode de normalisation RMA, 403 gènes ont démontré une régulation d'au moins 1,59
fois à au moins un des temps de traitement à l'E2 alors que 179 gènes avait une régulation
d'au moins 2 fois. En combinant la sélection des gènes différentiellement exprimés par les
2 méthodes de normalisation, les profils d'expression d'un total de 274 produits de la
transcription ont été vérifiés par qRT -PCR.
1.2.1.2 Concordance des profils d'expression
Afin de mieux évaluer et visualiser la concordance des profils d'expression des méthodes
et ainsi définir une liste de gènes régulés par l'estradiol, chaque profil d'expression obtenu
par les méthodes de normalisation a été visuellement comparé a celui obtenu par qRT
PCR. La Figure 6 montre quelques exemples de concordance et de non-concordance entre
les courbes d' expression. La Figure 6A, montre un exemple de bonne concordance.
Les intensités sont fortes, entre 1000 et plus pour les biopuces et entre 105 et 106 copies/mg
RNA pour le qRT_PCR. Les courbes sont bien profilées et superposables. La Figure 6A à
droite (intensités faibles) montre que malgré un NF beaucoup plus faible à 6 heures
(courbe RMA) la tendance dans les profils d'expression est comparable.
!-
- ------------
31
La Figure 6B montre des profils de courbes similaires pour deux méthodes. Le premier
graphique, MAS 5.0 et RMA, montre des courbes parfaitement identiques. Si on en croit la
courbe du qRT_PCR, qui est très irrégulière, l ' état de ce gène alternerait successivement
entre la valeur du contrôle et une inhibition de 60%. Un autre essai de qRT_PCR aurait été
requis pour vérifier à nouveau le profil d' expression. L 'exemple au centre montre un des
nombreux cas où MAS 5.0 donne des NFs plus élevés que RMA, mais l' allure de la courbe
est similaire à celle du qRT_PCR. Bien que la courbe obtenue par RMA semble suivre la
tendance des 2 autres courbes, la variation de la régulation est moins visible avec RMA. À
l'extrême droite, il y a peu d ' exemple de ce genre, les NFs de RMA sont plus élevés que
ceux de MAS 5.0. Les NFs déterminés par MAS 5.0 sont d ' environ 1.30. Selon MAS 5.0
ce gène ne semble pas régulé au cours du temps. Figure 6C, bien que les valeurs
d'intensités normalisées et la quantification par qRT-PCR soient élevées dans les trois cas
(plus de 1000 pour les biopuces et 105 copies/mg RNA), on n ' observe aucune concordance.
La courbe de RMA montre des valeurs de NFs entre 0.89 et 1.07.
A) Concordance des profils d'expression par 3 méthodes
Intensités fortes 2,2 .------- -------,
1 3 6 12 18 24
Temps de traitement (heures)
1 ntensités faibles 10,2 ...-----------.,
_ 9,2
~ 8,2 '-' 7,2 c 6,2 ~ 5,2 ~ 4,2 6, 3,2
-G) 2,2 a: 1,2
0,2 +---...:r----r-- ----,.--....-----4 1 3 6 12 18 24
Temps de traitement (heures)
B) Concordance des profils d'expression par 2 méthodes
RMA- MAS 5.0 MAS 5.0 - qRTPCR 2,2 7,2
iL LL 6 ,2
~ ~ 5,2 c c 4,2 0
~ 1,2 0
~ 3,2 :; nJ 0)
:; 2,2 -G) ~ 1.2 a::: a:
c
0,2 0 ,2 1 3 6 12 18 24 1 3 6 12 18 24
Temps de traitement (heures) Temps de traitement (heures)
C) Aucune concordance
3,2 ...--- ----------.
LL ~ 2,2 p __ ~c
c .Q m :; 1,2
__ 0 -
t» -G)
a::: 0,2
1 3 6 12 18 24
Temps de traitement (heures)
qRTPCR
a MAS 5.0
-+- RMA
RMA-qRTPCR 3,2 .-------------:------,
iL ~ 2,2 c .Q 19 12 a --c
0-::l ' t»
-G)
a::: 0,2 t---,---y---.--.----r---r--....--i
1 3 6 12 18 24
Temps de traitement (heures)
32
Figure 6. Graphique représentant des exemples de concordance entre les méthodes.
Chacun représente un cas particulier qui met en évidence certains traits qui caractérisent les
méthodes.
Les profils d'expression de 108 produits de la transcription sont similaires et donc commun
aux 3 méthodes (2 méthodes de normalisation et la respective validation par qRT_PCR).
Toutefois, la révision des profils d'expression à l'aide des courbes de concordance et de
non-concordance, ont permis d'identifier d'autres produits de la transcription. Ainsi, 30
produits de la transcription s'ajoutent aux 108 précédent pour un total de 138 gènes. Ces
33
gènes sont dits confirmés par RMA ou MAS 5.0 si l' allure de la courbe suivait la même
tendance que la courbe obtenue en qRT_PCR. Bien que les valeurs de Nfs, étant la plupart
du temps plus grandes pour MAS 5.0, moins de gènes ont été rajoutés avec cette méthode,
et plus avec RMA.
1.2.2 Comparaison des méthodes de normalisation MAS 5.0 et RMA
La Figure 7 permet de comparer les valeurs d' expression en NF obtenus pour chacune des
trois méthodes par régression linéaire. Par exemple, en considérant les profils d'expression
(des 108 produits de la transcription) similaires entre les trois méthodes, on observe ainsi
que pour un même gène les modulations observées par qRT-PCR ont tendance à être plus
élevées que celles observées par RMA ou MAS 5.0. Pour chacun des 6 traitements, les
données en NF obtenues par chaque méthode ont été comparées. La moyenne des pentes à
été calculée. En comparant les données de qRT-PCR à celles de RMA et MAS 5.0, les
droites ont des pentes de 1.21 et 1.25 respectivement (Tableau la). Par contre, les valeurs
générées par RMA ont tendance à être inférieures à celles de MAS 5.0. La méthode RMA
donne des valeurs de NFs souvent plus faibles que celles de la méthode de MAS 5.0 et que
celles obtenues par qRT _PCR. Il est intéressant de noter que la corrélation (R2) est
meilleure entre MAS 5.0 et RMA, et assez faible si on compare chacune de ces méthodes
avec les qRT_PCRs (Tableau lb). Les NFs les plus élevés sont ceux des qRT_PCRs. La
méthode de normalisation RMA a généré plus de gènes exprimés de façon différentielle
que MAS 5.0. Cependant, ces gènes sont, pour la plupart, modulés entre 1,59 à 2,0 fois. De
plus, les profils d' expression obtenus par RMA ont été mieux confirmés que ceux obtenus
par MAS 5.0, avec un nombre plus important de gènes, 87.2% pour RMA contre 68.0%
pour MAS 5.0.
34
A) 10,0
8,0
LL ~~ 6,0 ct) .Q 0.. • -t- • ~~ s, CT 4,0 .Q) a::
2,0
2,0 4,0 6,0 8,0 10,0
MAS 5.0 Régulation (NF)
B) 10,0
8,0
LL ~~
6,0 ct) .Q 0.. • -t- • ~a:: 5, CT 4,0
.Q) a::
2,0
2,0 4,0 6,0 8,0 10,0
RMA Régulation (NF)
C) 10,0
8,0
LL ~ 6,0 c« :8~ ~~ ~ 4,0 C»
.Q) a::
2,0
2,0 4,0 6,0 8,0 10,0
MAS 5.0 Régulation (NF)
Figure 7. Régulation comparée entre les méthodes MAS 5.0, RMA et qRT_PCR au temps
de traitement 24h. Les NFs de chaque méthode sont disposés sur les axes « x» et «y».
-- ~~ - -~ -------- - --
35
A) Matrice des moyennes géométriques des coefficients de régression linéaires
qRT_PCR 1
RMA 1
MAS5
qRT_PCR 0,46 (0,16) 0,39 (0,19)
RMA 0,92 (0 ,02)
MAS5
B) Matrice des moyennes des pentes
qRT_PCR 1
RMA 1
MAS5
qRT_PCR 1,21 (0,17) 1,25 (0,22)
RMA 0,85 (0,04)
MAS5
Tableau 1. A) Matrice des moyennes géométriques des coefficients de régression linéaires
des droites. B) Matrice des moyennes des pentes. Les écarts moyens sont entre
parenthèses. Ces tableaux résument les données obtenues aux six temps de traitements.
1.2.3 Classification des gènes selon les profils d'expression
Au total 138 produits de la transcription ont été retenus. Il est important de mentionner
qu'un gène peut être représenté par plusieurs produits de la transcription ou ensembles de
sondes sur une biopuce reflètant peut-être la présence d'épissage alternatif du gène. Les
profils d ' expression des 138 produits de la transcription régulés par l' estradiol sont illustrés
à la figure 8. Selon leur profil de régulation, Il regroupements ont été faits. Dans le tableau
2, les produits de la transcription présents dans chaque regroupement sont indiqués ainsi
que la valeur maximale de la régulation en NF selon la valeur obtenue par la méthode de
normalisation RMA.
Dans le regroupement 1, à 3 hrs, 41 produits de la transcription ont été positivement
régulés. La plus forte modulation de l'ordre de 5.7 fois par rapport aux contrôles a été
observée par le gène eteI (cytosolic acyl-CoA thioesterasel). Ce gène agit à la fois dans le
- --- - ----------------------------------~
36
« métabolisme des lipides », le « métabolisme du coenzyme» et le « métabolisme acyl
CoA ». Dans ce regroupement, notons la présence du récepteur de la progestérone (PGR)
qui est modulé de 3.1 fois par rapport aux contrôles et le facteur 3 de la coagulation (F3)
qui est modulé de 4.3 fois.
Après 3 heures de traitement, 25 produits de la transcription sont inhibés dans le
regroupement 2. C'est dans ce regroupement qu'on observe les plus fortes modulations par
l'estradiol. En effet, le gène Myotubularin Related Protein 7 (Mtmr7) et le facteur de
transcription Foxal (Forkhead box Al) sont inhibés respectivement de 7.4 et 6.2 fois.
Parmis les autres gènes retrouvés dans ce regroupement notons le gène Ptprj (NF= -2.9),
qui encode une protéine tyrosine phosphatase exprimée au niveau des jonctions adhérentes,
responsable de l ' adhésion cellulaire et de l'inhibition de contact lors de la croissance
cellulaire; le récepteur de la prolactine (Prlr) et Fgfr2 (fibroblast growth factor receptor 2)
(NF= -2.6) très impliqué dans le développement de la glande mammaire. Un SNP dans
l'intron 2 de ce gène a récemment été identifié à une augmentation du risque de développer
un cancer du sein [42]. Également inclus le récepteur de la prostaglandine (Ptger3), le gène
Elovl6 impliqué dans l'élongation des acides à longues chaînes. Rsnl2 qui joue un rôle
important dans les interactions entre la membrane et les microtubules en prévenant la
polymérisation des microtubules et de l'antigène CD24a, responsable de l' adhésion
cellulaire et de l'interaction entre les cellules en différentiation et la matrice cellulaire. Les
gènes stimulés à 3 heures semblent favoriser la motilité cellulaire et l'adhésion, les
jonctions entre les cellules et la matrice.
Dans le regroupement 3, il n'y a pratiquement que des gènes en rapport avec le tissu
musculaire. En plus de la myotilin impliquée dans l'organisation du sarcomère et
l' amoncellement d' actine, on retrouve, dans ce regroupement de gènes stimulés à 6hrs par
l'estradiol, troponin, tropomyosin, myosin, la créatine kinase (Ckm) et la glycogène
phosphorylase musculaire (Pygm).
Cl) ,Cl) Cf)
ro E ~
0 c 2 °w c Cl)
C
Cl) ,Cl)
o~ ro
100
10
0.1 1
100
E 10 ~
o c 2 °w c Cl) ë
0.1 ,-, 1
Regroupement 1 (n=41)
, 3 6 12 24
Temps de traitement (heures)
Regroupement 3 (n=24)
,-- --
3 6 12 18 24
Temps de traitement (heures)
Regroupement 5 (n=9)
Temps de traitement (heures)
Cl) ' Cl) o~ ro E 0 c 2 °w c Cl) ....
.E:
Cl) ' Cl) o~ ro
100
10
0.1
100
Regroupement 2 (n=25)
, -- , 1 3 6 12 18 24
Temps de traitement (heures)
Regroupement 4 (n=11)
E 10 ~
o c
,Cl) .... °w c Cl) .... c
Cl) 'Cl) o~ ro E ~
o c 2 °w c Cl) .... c
0.1 J r-T_..---....------,.--1 3 6 12 18 24
Temps de traitement (heures)
Regroupement 6 (n=8)
100 -
10 1
24 O. 1 , , - - ,- - ---1
1 3 6 12 18
Temps de traitement (heures)
37
Regroupement 7 (n=8)
100
10
1 ,~~ oJ~ i
1 3 6 12 18 24
Temps de traitement (heures)
Regroupement 9 (n=3)
100
!
10 1 1
, 1
~--~' ~" ~i=-~~==~ 1
0 .1 .J ,..-,,.--,-, --,------r, - --...,-, -------i 24 3 6 12 18
Temps de traitement (heures)
Regroupement 11 (n=1)
0.1 ...J r-- '.---__ ~--
1 3 6 12 18 24
Temps de traitement (heures)
38
Regroupement 8 (n=5)
100
10
0.1 .J ,..-,_..------,..---.......---- --.----
1 3 6 12 18 24
Temps de traitement (heures)
Regroupement 10 (n=3)
100
10
0.1 .J ,..-,,.--,-, - .... ,----,-----,-, ------,
3 6 12 18 24
Temps de traitement (heures)
Figure 8. Profils d'expression des gènes régulés par l'E2. Les courbes d'intensité (en
valeurs logarithmiques) en fonction du temps permettent de classer les gènes selon la
similitude de leur degré d'expression sur une période de 24 heures.
39
Tableau 2: Classification par profils d'expression des 138 produits de la transcription confirmés par gRT-PCR
Numéro des ensembles de sondes
Symbole des gènes Description
Regroupement 1: Régulation positive à 3 hrs 1449065_at 1422997 s at 1439527- at 1438394=x_at 1448290 at 1417408=at 1418818 at 1439699=at 1452166 a at 1455531- at 1417047=at 1439568 at 1457823=at 1438133 a at 1438840- x - at 1433923=at 1431214 at 1424211=at 1450716 at 1420904=at 1422460 at 1420905=at 1428484_at 1419282 at 1417273=at 1418252 at 1437277- x at 1423506=a= at 1416686 at 1435105=at 1429024 at 1427352=at 1428926 at 1428758=at 1450259_a_at 1433907 at 1416225=at 1434089_at 1460230_at 1417860_a_at 1422571_at
Cte1 Cte1/Mte1 BB114106
Krt2-4 Pap F3
Aqp5 PÇJr
Krt1-10 A930031 D07Rik
Prom2 Greb1 Cyr61 Cyr61 Apoa1
4732484G22Rik LOC433762
5730438N18Rik Adamts 1
1117r Mad211
1117r Osbpl3 Ccl12 Pdk4 Padi2 Tgm2 Nnat Plod2
1110061 N23Rik 1110018J23Rik
BC031593 1110003008Rik 1810054013Rik
Stat5a Pknox2 Adh1 Synpo Syn2
Spon2 Thbs2
cytosolic acyl-CoA th ioesterase 1 cytosolic and mithoncondria l acyl-CoA thioesterase 1
expressed sequence BB 114106 keratin complex 2, basic, gene 4 pancreatitis-associated protein
coagulation factor III aquaporin 5
ProÇJesterone receptor (PÇJr) , mRNA keratin complex 1, acidic, gene 10 RIKEN cDNA A930031D07 gene
prominin 2 gene regulated by estrogen in breast cancer protein
cysteine rich protein 61 cysteine rich protein 61
apolipoprotein A-I RIKEN cDNA 4732484G22 gene/similar to keratin 1 b
similar to Retrovirus-related POL polyprotein (Endonuclease) RIKEN cDNA 5730438N 18 gene
a disintegrin-like and metalloprotease with thrombospondin type 1 motif, 1 interleukin 17 receptor
MAD2 (mitotic arrest deficient, homolog)-like 1 (yeast) interleukin 17 receptor
oxysterol binding protein-like 3 chemokine (C-C motif) ligand 12
pyruvate dehydrogenase kinase, isoenzyme 4 peptidyl arginine deiminase, type Il transglutaminase 2, C polypeptide
neuronatin procollagen lysine, 2-oxoglutarate 5-dioxygenase 2
RIKEN cDNA 1110061 N23 gene RIKEN cDNA 1110018J23 gene
cDNA sequence BC031593 RIKEN cDNA 1110003008 gene RI KEN cDNA 1810054013 gene
signal transducer and activator of transcription 5A Pbx/knoUed 1 homeobox 2
alcohol dehydrogenase 1 (class 1) synaptopodin
synapsin Il spondin 2, extracellular matrix protein
thrombospondin 2
Regroupement 2: Régulation négative à 3 hrs 1447831 s at 1418496=at 1434553_at 1425452_s_at 1449369 at 1436555- at 1420847=a_at 1419154 at 1448556=at 1441102_at 1437397 _at 1417441_at 1450344 a at 1417623=at 1417403 at 1448780=at 1445546 at 1436203=a_at 1422582_at 1417622_at 1427278_at 1416034_at 1459749_s_at 1427025_at 1451606 at
Mtmr7 Foxa1
Tmem56 AW125753/Ptprj
Tmprss2 SIc7a2 Fgfr2
Tmprss2 Prlr
AI987712 AI987712 Dnajc12 Ptger3
SIc12a2 Elovl6
SIc12a2
1110059G02Rik Lep
SIc12a2 Rsnl2 Cd24a Fat4
Mtmr7 A530016L24Rik
myotubularin related protein 7 forkhead box A 1
transmembrane protein 56 expressed sequence/protein tyrosine phosphatase, receptor type, J
transmembrane protease, serine 2 solute carrier family 7 (cationic ami no acid transporter, y+ system), 2
fibroblast growth factor receptor 2 transmembrane protease, serine 2 Mus musculus prolactin receptor expressed sequence AI987712 expressed sequence AI987712
DnaJ (Hsp40) homolog, subfamily C, member 12 prostaglandin E receptor 3 (subtype EP3)
solute carrier family 12, member 2 ELOVL family member 6, elongation of long chain fatty acids (yeast)
solute carrier family 12, member 2 Mus musculus BAC clone RP23-21016 from chromosome 3.
RIKEN cDNA 111 0059G02 gene leptin
solute carrier family 12, member 2 restin-like 2
CD24a antigen FAT tumor suppressor homolog 4 (Drosophila)
myotubularin related protein 7 RIKEN cDNA A530016L24 gene
Régulation selon RMA (NF)
3hrs 5,7 5,6 5,4 5,0 4,6 4,3 3,6 3,1 3,1 3,0 2,9 2,7 2,6 2,6 2,5 2,4 2,1 2,2 2,2 2,2 2,1 2,1 2,0 2,0 1,9 1,9 1,9 1,9 1,9 1,9 1,9 1,9 1,8 1,8 1,8 1,8 1,7 1,6 1,6 1,6 1,6
3 hrs -7,4 -6,2 -4,7 -2 ,9 -2,8 -2,7 -2,6 -2,4 -2,4 -2,3 -2,2 -2,0 -1 ,9 -1,9 -1,8 -1,7 -1,7 -1,7 -1,7 -1,7 -1,6 -1 ,6 -1,6 -1 ,6 -1 ,5
- --------------
40
Numéro des Symbole des Régulation selon RMA ensembles Description
de sondes gènes (NF)
Regroupement 3: Régulation positive à 6 hrs 6 hrs 1417889_at Apobec2 apolipoprotein B editing complex 2 3,4 1418155 at Myot myotilin 3,0 1427445- a at Ttn titin 2,7 1423145=a=at Tcap titin-cap 2,6 1416889 at Tnni2 troponin l, skeletal, fast 2 2,5 1427735 - a at Acta1 actin , alpha 1, skeletal muscle 2,5 1457435=x=at Myom2 myomesin 2 2,5 1417464_at Tnnc2 troponin C2, fast 2,5 1449577 x at Tpm2 tropomyosin 2, beta 2,4 1452651- a- at Myl1 myosin, Iight polypeptide 1 2,4 1417653=at Pvalb parvalbumin 2,3 1419312 at Atp2a1 ATPase, Ca++ transporting, cardiac muscle, fast twitch 1 2,3 1417614=at Ckm creatine kinase, muscle 2,3 1455736 at Mybpc2 myosin binding protein C, fast-type 2,3 1417951- at En03 enolase 3, beta muscle 2,2 1450118=a_at Tnnt3 troponin T3, skeletal , fast 2,2 1418677 at Actn3 actinin alpha 3 2,1 1427306=at Ryr1 ryanodine receptor 1, skeletal muscle 2,1 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1418373_at Pgam2 phosphoglycerate mutase 2 2,1 1448602 at pygm muscle glycogen phosphorylase 2,1 1436867- at Sri sarcalumenin 2,0 1422598=at Casq1 calseq uestrin 1 1,9 1418062_at Eef1a2 eukaryotic translation elongation factor 1 alpha 2 1,6
Regroupement 4: Régulation positive à 6 hrs et à 24 hrs 6 hrs 24 hrs 1427868_x_at Myh1 myosin, heavy polypeptide 1, skeletal muscle, adult 6,0 6,1 1425153 at Myh2 myosin, heavy polypeptide 2, skeletal muscle, adult 5,0 3,9 1451203=at Mb myoglobin 3,1 2,8 1436332 at Hspb6 heat shock protein, alpha-crystallin-related, B6 2,5 2,1 1448394=at Myl2 myosin, Iight polypeptide 2, regulatory, cardiac, slow 2,4 1,8 1428722 at Ckmt2 creatine kinase, mitochondrial 2 2,0 1,6 1429783- at Pdlim5 POZ and LlM domain 5 1,6 1,5 1418370=at Tnnc1 troponin C, cardiac/slow skeletal 1,7 1,3 1448756 at S100a9 S100 calcium binding protein A9 (calgranulin B) 1,8 1,1 1418979=at 9030611 N15Rik RIKEN cONA 9030611N15 gene 2,1 1,0 1419549_at Arg1 arginase 1, liver 2,5 -1 ,2
Regroupement 5: Régulation positive à 1 hr 1 hr 1436814_at Mammary cancer associated protein rmt-1 homolog [Rattus norvegicus] 3,4 1416129 at Errfi1 ERBB receptor feedback inhibitor 1 3,1 1453851=a_at Gadd45g growth arrest and DNA-damage-inducible 45 gamma 3,1 1419816 s at Errfi1 ERBB receptor feedback inhibitor 1 2,8 1416576=at Socs3 suppressor of cytokine signaling 3 2,0 1434227 at Kdap keratinocyte differentiation-associated protein 2,0 1456212=x_at Socs3 suppressor of cytokine signaling 3 1,8 1452160 at Tiparp TCOO-inducible poly(ADP-ribose) polymerase 1,8 1434153=at Shb src homology 2 domain-containing transforming protein B 1,2
Regroupement 6: Régulation positive à 3 hrs, 6 hrs et 12 hrs 3 hrs 6 hrs 12 hrs 1421404 at Cxcl15 chemokine (C-X-C motif) ligand 15 1,2 3,5 2,9 1438654- x at Mmd2 monocyte to macrophage differentiation-associated 2 3,2 3,4 2,3 1454903=at Ngfr nerve growth factor receptor (TNFR superfamily, member 16) 2,1 2,6 1,8 1419015 at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 2,1 1,3 1417290=at Lrg1 leucine-rich alpha-2-glycoprotein 1 1,3 1,8 2,0 1429379 at Xlkd1 extra cellular link domain-containing 1 1,3 1,8 2,0 1453128=at Xlkd1 extra cellular Iink domain-containing 1 1,3 1,7 1,9 1423544_at Ptpn5 protein tyrosine phosphatase, non-receptor type 5 1,6 1,6 1,3
Regroupement 7: Régulation positive à 12 hrs et 18 hrs 12 hrs 18 hrs 1437578_at Clca2 chloride channel calcium activated 2 4,1 3,5 1419524 at Tph1 tryptophan hydroxylase 1 3,4 2,2 1419463=at Clca2 chloride channel calcium activated 2 2,6 2,5 1420647 _a_at Krt2-8 keratin complex 2, basic, gene 8 2,6 1,8 1460259 s at Clca1/Clca2 chloride channel calcium activated 1 and 2 2,3 2,2 1450407 =a=at Anp32a acidic (leucine-rich) nuclear phosphoprotein 32 family, member A 2,1 1,4 1417852_x_at Clca1 chloride channel calcium activated 1 1,9 1,8 1448169_at Krt1-18 keratin complex 1, acidic, gene 18 1,7 1,4
Numéro des ensembles de sondes
Symbole des gènes
Regroupement 8: Régulation négative à 6hrs 1435663_at Esr1 1416025_at Fgg 1460591_at Esr1 1438665_at Smpd3 1437019_at 2200001115Rik
Regroupement 9: Régulation positive à 3hrs et 6 hrs
Description
estrogen receptor 1 (alpha) fibrinogen, gamma polypeptide
estrogen receptor 1 (alpha) sphingomyelin phosphodiesterase 3, neutral
RIKEN cDNA 2200001115 gene
1418197_at Ucp1 uncoupling protein 1, mitochondrial 1444505_at Rai17 retinoic acid induced 17 1420913_at SIco2a1 solute carrier organic anion transporter family , member 2a1
Regroupement 10: Régulation négative à 6hrs et régulation positive à 18hrs 1418287 _a_at Dmbt1 deleted in malignant brain tumors 1 1419082_at Serpinb2 serine (or cysteine) proteinase inhibitor, clade B, member 2 1424351_at Wfdc2 WAP four-disulfide core domain 2
Regroupement 11: Régulation positive à 18 hrs 1438448_at Otop1 otopetrin 1
41
Régulation selon RMA (NF)
6 hrs -3,0 -2,4 -2,0 -1 ,9 -1 ,4
3 hrs 2,1 1,7 1,6
6 hrs -1 ,7 -1 ,1 -1 ,7
18 hrs 1,6
6 hrs 1,9 1,3 1,6
18 hrs 2,6 1,2 1,0
*Pour simplifier le tableau, seuls les NF obtenus selon RMA ont été indiqués. Cependant, les NF correspondants obtenus selon MAS 5.0 sont généralement supérieurs.
Le regroupement 4 inclut des gènes positivement régulés à 6 heures et 24 heures. Les
gènes encodant la myosine Myh1 et Myh2 ont été fortement régulés à 6 ms et 24 hrs de
même que le gène de la myoglobine (Mb). Le Riken 9030611N15Rik, son rôle est encore
mal caractérisé, est homologue à 87% avec la 3alpha-HSD 1. Il est plus stimulé à 6 heures
qu'à 24 heures.
Avec un NF de 3,4, le gène Mammary cancer associated protein (Rmt1) est le plus modulé
du regroupement 5. TCDD-inducible poly polymerase ADP-ribose (Tiparp) associé au
polluant environnemental TCDD. En lien avec le sentier Ras-ERK, le gène ErBB receptor
feedback inhibitor 1 (Errfi 1) est stimulé à 1 hr. Il est le deuxième gène le plus stimulé soit
de 3,1 et 2,8 fois par rapport contrôle pour les sondes 1416129_at et 1419816_s_at
respectivement. Ce gène agit sur les familles de récepteurs ERBB et EGFR. Son inhibition
provoque la stimulation des cellules épithéliales normales de la glande mammaire [43], et
serait un gène d'expression immédiat dans les pré-adipocytes [44].
- -----_.- ---- ----- - --------------
42
Le regroupement 6 se caractérise par une régulation positive à 3 hrs qui semble s'accentuer
ou se maintenir à 6hrs et 12hrs. Les principaux gènes retrouvés dans ce regroupement sont
la chimiokine Cxcl15 responsable, entre autres, de la migration des neutrophiles, le gène
monocyte to macrophage differentiation-asssociated 2 (Mmd2), Ptpn5, une protéine
tyrosine phosphatase, le gène Wisp2, inductible par la signalisation Wntl , liant le calcium
et deux autres gènes impliqués dans l'adhésion cellulaire: Xlkd 1, et Lrg 1 une glycoprotéine
riche en leucine.
La régulation par l' estradiol des gènes impliqués dans les regroupements 8, 9, 10 et Il est
plus faible que celle retrouvée dans les autres regroupements et implique peu de gènes.
1.2.4 Classification des gènes par processus biologiques
Basés sur la nomenclature de GeneOntology, les 138 produits de la transcription ont été
regroupés par processus cellulaire. Ces processus cellulaires ont ensuite été ordonnés par
ordre d'importance à l'aide d'un indice calculé (z score). La Figure 9 représente les
processus cellulaires classés par le «z score» en fonction du temps de traitement.
Rappelons que la valeur du « z score» dépend de l'écart entre le nombre de gènes modulés
et le nombre de gènes mesurés sur la biopuce. Un même gène peut appartenir à plus d'un
processus. Le fait qu'un transcrit soit dans un processus ayant un «z score» non
significatif «1,96) n'exclu pas qu'il soit fortement modulé.
Après 1 heure de traitement à l'estradiol, la valeur élevée du « z score» montre qu'il y a 3
processus biologiques majeurs impliqués. La «contraction musculaire», le «développement
musculaire» et la «motilité cellulaire». Les deux premiers processus sont un peu moins
importants à 18 et 24 heures, avec la modulation des gènes tropomyosin, troponin,
ryanodine receptor, calsequestrin, et myosin. Pour la motilité cellulaire, la plupart des
gènes qui sont modulés à 1 hr réapparaissent à 12 et à 18 heures.
Le métabolisme des coenzymes et de l'acyl-CoA à 1 heure, fait place au métabolisme des
lipides et celui des acides gras à 3 heures, alors que le catabolisme des sucres est en
évidence à 6 heures, et le métabolisme des acides aminés à 12 heures. Le seul gène associé
43
au métabolisme de l'acyl-CoA est le gène Cytosolic-CoA thioesterase 1 (Cte1), il est co
régulé avec le gène Pyruvate dehydrogenase kinase, isoenzyme 4 (Pdk4) dans le
métabolisme du coenzyme.
Les gènes régulateurs de la croissance cellulaire se mettent en place dès le départ à partir
d ' une heure de traitement, mais la croissance épithéliale et cellulaire et la régulation de
l ' adhésion cellulaire sont évidentes qu' après 3 heures de traitement. Après cette phase de
croissance à 3 heures, 1 'homéostasie semble nécessaire puisque le transport des ions est un
processus qui devient plus significatif. Ensuite on assiste à une réorganisation du
cytosquelette de la glande mammaire à 6 heures. Les chemokines (processus « réponses
aux blessures ») se manifestent aussi à ce moment ainsi qu'un gène Gadd45g (growth
arrest and DNA-damage-inducible), qui atteint son maximum à 3 heures puis diminue à 6
heures et n'est plus modulé par la suite. En résumé de ces 2 gènes, une phase de croissance
à 3 heures et après réarrangement du cytosquelette à 6 heures. Après la chute de la
régulation de l'ARNm du récepteur de l'E2 à 6 heures, la croissance est grandement
affectée. Les deux seuls processus qui demeurent significatifs vers la fin du profil
d'expression soit après 12, 18 et 24 heures de traitement, impliquent des gènes en rapport
avec la contraction et le développement musculaire.
A) Temps de traitement: 1 hr B) Temps de traitement: 3hrs
D) Temps de traitement: 12 hrs E) Temps de traitement: 18 hrs
28
1 2 3 4 5 6 7 8 9
10 11 12 13 14 15 16 17 18 19 20
contraction musculaire développement musculaire motilité cellulaire métabolisme de l'acyl-CoA organogenèse
5
régulation de la croissance cellulaire organisation du cytosquelette et biogenèse métabolisme du coenzyme régulation de processus biologiques régulation de r absorption du cholestérol régulation de l'adhésion cellulaire régulation de la différentiation des cellules épithéliales régulation de la contraction musculaire régulation de la différentiation cellulaire métabolisme des lipides métabolisme des stéroïdes processus physiologiques de r organisme transport des ions sodium régulation des processus cellulaires différenciation cellulaire
21 22 23 24 25 26 27 28 29 30 31 32
33 34 35
C) Temps de traitement: 6 hrs
F) Temps de traitement: 24 hrs
32
métabolisme des acides gras activation des lymphocytes métabolisme des acides organiques transport des anions réponse de défense adhésion ceUulaire transport des chlorures catabolisme des sucres transport des ions réponses aux blessures hématopoïèse énergie dérivée par l'oxydation des composés organiques métabolisme des acides aminés apoptose métabolisme de la phosphocréatine
44
Figure 9. Représentation du Tableau 2 montrant les proportions entre les diverses valeurs
de « z score» pour chaque processus cellulaire. Plus la zone est importante, plus la valeur
de « z score » est élevée.
45
Tableau 3 : Classification des gènes par processus biologiques selon Gene Ontology en fonction du « z score» et du temps de traitement
Numéro des Symbole Temps de traitement
ensembles des Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs de sondes gènes (NF) (NF) (NF) (NF) (NF) (NF)
contraction musculaire z score= 35,70 11,39 25,83 <1,96 32,93 35,95 1427B6B_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1 ,9 6,0 -1 ,B 6,1 1427445_a_at Ttn titin 1,7 2,7 1,B 2,2 1416BB9_at Tnni2 troponin l, skeletal , fast 2 1,9 1,6 2,5 1,B 1,9 1427735_a_at Acta1 actin , alpha 1, skeletal muscle 1,7 2,5 1,B 2,1 1457435_x_at Myom2 myomesin 2 2,5 2,2 1417464_at Tnnc2 troponin C2 , fast 2,0 1,7 2,5 2,0 1,9 1449577 _x_at Tpm2 tropomyosin 2, beta 1,B 2,4 1,7 1,9 1419312_at Atp2a1 ATPase, Ca++ transporting, fast twitch 1 1,B 1,6 2,3 1,B 1,9 1455736_at Mybpc2 myosin binding protein C, fast-type 2,0 1,B 2,3 1,9 2,0 145011B_a_at Tnnt3 troponin T3, skeletal , fast 1,B 2,2 1,9 1,9 1418677 _at Actn3 actinin alpha 3 1,9 1,6 2,1 1,9 1,7 1427306_at Ryr1 ryanodine receptor 1, skeletal muscle 1,7 2,1 1,7 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 1,6 142259B_at Casq1 calsequestrin 1 1,6 1,9 1,6 1,6 141B370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7
2 développement musculaire z score= 22,23 5,86 20,88 <1,96 22,23 29,23 1427B6B_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1 ,9 6,0 -1 ,B 6,1 1451203_at Mb myoglobin 3,1 2,B 1423145_a_at Tcap titin-cap 2,6 1,B 1416BB9_at Tnni2 troponin l, skeletal, fast 2 1,9 1,6 2,5 1,B 1,9 1427735_a_at Acta1 actin, alpha 1, skeletal muscle 1,7 2,5 1,B 2,1 1457435_x_at Myom2 myomesin 2 2,5 2,2 1417464_at Tnnc2 troponin C2, fast 2,0 1,7 2,5 2,0 1,9 144B394_at Myl2 myosin, light polypeptide 2, regulatory, cardiac 2,4 1,B 1449577 _x_at Tpm2 tropomyosin 2, beta 1,B 2,4 1,7 1,9 1452651_a_at Myl1 myosin, light polypeptide 1 1,B 2,4 1,9 1,9 1417653_at Pvalb parvalbumin 2,0 1,7 2,3 2,0 1,7 145011B_a_at Tnnt3 troponin T3, skeletal, fast 1,B 2,2 1,9 1,9 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 1,6 142259B_at Casq1 calsequestrin 1 1,6 1,9 1,6 1,6 141B370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7
3 motilité cellulaire z score= 19,80 6,96 15,94 3,99 19,80 <1,96 1427B6B_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1,9 6,0 -1 ,B 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 2,9 1,7 1427445_a_at Ttn titin 1,7 1,B 2,7 1,B 1454903_at Ngfr nerve growth factor receptor, member 16 2,6 1,B 1416BB9_at Tnni2 troponin l, skeletal, fast 2 1,9 1,6 2,5 1,B 1427735_a_at Acta1 actin , alpha 1, skeletal muscle 1,7 2,5 1,B 1457435_x_at Myom2 myomesin 2 2,5 1417464_at Tnnc2 troponin C2, fast 2,0 1,7 2,5 2,0 1449577 _x_at Tpm2 tropomyosin 2, beta 1,B 2,4 1,7 1419312_at Atp2a1 ATPase, Ca++ transporting, fast twitch 1 1,B 1,6 2,3 1,B 1455736_at Mybpc2 myosin binding protein C, fast-type 2,0 2,3 1,9 145011B_a_at Tnnt3 troponin T3, skeletal, fast 1,B 2,2 1,9 141B677 _at Actn3 actinin alpha 3 1,9 1,6 2,1 1,9 1427306_at Ryr1 ryanodine receptor 1, skeletal muscle 1,7 2,1 2,1 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 142259B_at Casq1 calseq uestrin 1 1,6 1,9 1,6 141B370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7
4 métabolisme de l'acyl-CoA z score= 14,51 <1,96 9,08 <1,96 <1,96 <1,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 2,3 2,5 1422997 _s_at Cte1/Mte1 cytosolic and mitochon acyl-CoA thioesterase 1 2,0 2,2
46
Numéro des Symbole
Temps de traitement ensembles
des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs
de sondes (NF) (NF) (NF) (NF) {NF} {NF}
5 organogénèse z score= 9,14 3,84 8,47 <1,96 9,14 10,00 1427868_x_at Myh1 myosin , heavy polypeptide 1, skel muscle, adult -1 ,9 6,0 -1 ,8 6,1 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 1,7 1451203_at Mb myoglobin 3,1 1423145_a_at Tcap titin-cap 2,6 1,8 1454903_at Ngfr nerve growth factor receptor, member 16 2,1 2,6 1416889_at Tnni2 troponin l, skeletal , fast 2 1,9 1,6 2,5 1,8 1,9 1427735_a_at Acta1 actin , alpha 1, skeletal muscle 1,7 2,5 1,8 2,1 1457435_x_at Myom2 myomesin 2 2,5 1417464_at Tnnc2 troponin C2 , fast 2,0 1,7 2,5 2,0 1,9 1448394_at Myl2 myosin , light polypeptide 2, regulatory , cardiac 2,4 1,8 1449577 _x_at Tpm2 tropomyosin 2, beta 1,8 2,4 1,7 1452651_a_at Myl1 myosin, light polypeptide 1 1,8 2,4 1,9 1417653_at Pvalb parvalbumin 2,0 1,7 2,3 2,0 1,7 1450118_a_at Tnnt3 troponin T3, skeletal, fast 1,8 2,2 1,9 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 1,7 2,1 2,0 1,6 1422598_at Casq1 calsequestrin 1 1,6 1,9 1,6 1,6 1418370_at Tnnc1 troponin C, cardiac/slow skeletal 1,7 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 3,1 2,3 1,7 1420847 _a_at Fgfr2 fibroblast growth factor receptor 2 -2,6 -2,0 1457823_at Cyr61 cysteine rich protein 61 1,9 2,6 1422582_at Lep leptin -1 ,7 1438448_at Otop1 otopetrin 1 1,6
6 régulation de la croissance cellulaire z score= 5,53 3,72 <1,96 <1 ,96 <1,96 <1,96 1456212_x_at Socs3 suppressor of cytokine signaling 3 1,8 1457823_at Cyr61 cysteine ri ch protein 61 1,9 2,6 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7
7 organisation du cytosquelette et biogènése z score= 5,37 <1,96 <1,96 2,92 5,37 6,07 1427868_x_at Myh1 myosin, heavy polypeptide 1, skel muscle, adult -1,9 -1 ,8 6,1 1425153_at Myh2 myosin, heavy polypeptide 2, skel muscle, adult 3,9 1427735_a_at Acta1 actin, alpha 1, skeletal muscle 1,7 1,8 2,1 1452651_a_at Myl1 myosin, light polypeptide 1 1,8 1,9 1,9 1448394_at Myl2 myosin, light polypeptide 2, regulatory , cardiac 1,8 1427026_at Myh4 myosin, heavy polypeptide 4, skeletal muscle 2,1 2,0 1,6 1452166_a_at Krt1-10 keratin complex 1, acidic, gene 10 2,4 1420647 _a_at Krt2-8 keratin complex 2, basic, gene 8 2,6 1,8 1448169_at Krt1-18 keratin complex 1, acidic, gene 18 1,7
8 métabolisme du coenzyme z score= 4,97 3,17 <1,96 <1,96 <1,96 <1,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 2,3 5,7 1422997 _s_at Cte1/Mte1 cytosolic and mitochon acyl-CoA thioesterase 1 2,0 5,6 1417273_at Pdk4 pyruvate dehydrogenase kinase, isoenzyme 4 1,7 2,0
9 régulation de processus biologiques z score= 2,92 4,20 <1,96 <1,96 <1,96 <1,96 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 3,1 2,3 1457823_at Cyr61 cysteine rich protein 61 1,9 2,6 1456212_x_at Socs3 suppressor of cytokine signaling 3 1,8 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1422582_at Lep leptin -1,7 1450259_a_at Stat5a signal transducer & activator of transcription 5A 1,8 1441102_at AI987712 expressed sequence AI987712 -2,3
10 régulation de l'absorption du cholestérol z score= <1,96 14,68 <1,96 <1,96 <1,96 <1,96 1438840_x_at Apoa1 apolipoprotein A-I 2,5 1422582_at Lep leptin -1,7
11 régulation de l'adhésion cellulaire z score= <1,96 10,28 <1,96 <1,96 <1,96 <1,96 1450259_a_at Stat5a signal transducer & activator of transcription 5A 1,8 1441102_at AI987712 Expressed sequence AI987712 -2,3
47
Numéro des Symbole
Ternes de traitement ensembles
des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs de sondes (NF) {NF) {NF) (NF) (NF) (NF)
12 régulation de la différentiation des cellules épithéliales z score= <1,96 10,28 <1,96 <1 ,96 <1 ,96 <1 ,96 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1441102_at AI987712 expressed sequence AI987712 -2 ,3
13 régulation de la contraction musculaire z score= <1,96 9,16 <1 ,96 <1,96 <1 ,96 <1 ,96 1417464_at Tnnc2 tropon in C2 , fast 1,7 1416889_at Tnni2 troponin l, skeletal, fast 2 1,6 1419312_at Atp2a1 ATPase, Ca++ transporting , fast twitch 1 1,6
14 régulation de la différentiation cellulaire z score= <1,96 8,75 <1,96 <1 ,96 <1 ,96 <1 ,96 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1422582_at Lep leptin -1 ,7 1441102_at AI987712 expressed sequence AI987712 -2 ,3
15 métabolisme des lipides z score= <1,96 5,62 <1,96 <1 ,96 <1 ,96 <1 ,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 5,7 1422997 _s_at Cte/Mte1 cytosolic et mitochondrial 5,6 1438840_x_at Apoa1 apolipoprotein A-I 2,5 1454903_at Ngfr nerve growth factor receptor, member 16 2,1 1428484_at Osbpl3 oxysterol binding protein-like 3 2,0 1416225_at Adh1 alcoho l dehydrogenase 1 (class 1) 1,7 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1422582_at Lep leptin -1 ,7 1417403_at Elovl6 ELOVL family member 6 -1 ,8
16 métabolisme des stéroids z score= <1,96 4,59 <1,96 <1,96 <1,96 <1,96 1422582_at Lep leptin -1 ,7 1428484_at Osbpl3 oxysterol binding protein-like 3 2,0 1438840_x_at Apoa1 apolipoprotein A-I 2,5
17 processus physiologiques de l'organisme z score= <1,96 4,20 <1,96 2,65 <1 ,96 <1 ,96 1448290_at Pap pancreatitis-associated protein 4,6 1438840_x_at Apoa1 apolipoprotein A-I 2,5 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3 1419282_at Ccl12 chemokine (C-C motif) ligand 12 2,0 1434153_at Shb src homol 2 domain-containing transf prot B 1,8 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1460230_at Syn2 synapsin Il 1,60 1422582_at Lep leptin -1 ,7 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,9 1441102_at AI987712 expressed sequence AI987712 -2,3 1416025_at Fgg fibrinogen, gamma polypeptide -2,4 1419524_at Tph1 tryptophan hydroxylase 1 3,4 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 2,9
18 transport des ions sodium z score= <1,96 4,14 3,56 <1,96 <1,96 <1 ,96 1417622_at SIc12a2 solute carrier family 12, member 2 -1,7 -1,4 1436239_at SIc5a5 solute carrier family 5, member 5 1,7 2,0
19 régulation des processus cellulaires z score= <1,96 3,84 <1,96 <1,96 <1,96 <1,96 1457823_at Cyr61 cysteine rich protein 61 2,6 1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1422582_at Lep leptin -1 ,7 1441102_at AI987712 expressed sequence AI987712 -2,3
20 différenciation cellulaire z score= <1,96 3,50 <1,96 <1,96 <1,96 <1,96
1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3
1450259_a_at Stat5a signal transducer & activator of transcription SA 1,8 1422582_at Lep leptin -1 ,7 1441102_at AI987712 expressed sequence AI987712 -2,3
48
Numéro des Symbole
Ternes de traitement ensembles
des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs de sondes (NF) (NF) (NF) (NF) (NF) (NF)
21 métabolisme des acides gras z score= <1,96 3,25 <1,96 <1 ,96 <1,96 <1 ,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 5,7 1422997 _s_at Cte1-Mte1 cytosolic et mitochon acyl-CoA thioesterase 1 5,6 1417403_at Elovl6 ELOVL family member 6 -1 ,8
22 activation des lymphocytes z score= <1,96 3,10 <1,96 <1,96 <1 ,96 <1 ,96 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3 1434153_at Shb src homol 2 domain-containing transform prot 8 1,8
23 métabolisme des acides organiques z score= <1,96 3,00 <1,96 2,72 <1 ,96 <1 ,96 1449065_at Cte1 cytosolic acyl-CoA thioesterase 1 5,7 1422997 _s_at Cte1/Mte1 cytosolic and mitoch acyl-CoA thioesterase 1 5,6 1417273_at Pdk4 pyruvate dehydrogenase kinase, isoenzyme 4 1,9 1422582_at Lep leptin -1 ,7 1417403_at Elovl6 ELOVL family member 6 -1 ,8 1419524_at Tph1 tryptophan hydroxylase 1 3,4 1419549_at Arg1 arginase 1, liver -1 ,7
24 transport des anions z score= <1,96 2,76 6,78 <1,96 <1,96 <1 ,96 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,9 -1 ,8 1417622_at SIc12a2 solute carrier family 12, member 2 -1 ,7 -1,4 1460259_s_at Clca1/Clca2 chloride channel calcium activated 1 et 2 -1 ,3 1417852_x_at Clca1 chloride channel calcium activated 1 -1 ,2 1420913_at SIco2a1 solute carrier organic anion transporter fa 2a1 1,6
25 réponse de défense z score= <1,96 2,55 <1,96 <1,96 <1,96 <1 ,96 1448290_at Pap pancreatitis-associated protein 4,6 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 2,3 1419282_at Ccl12 chemokine (C-C motif) ligand 12 2,0 1434153_at Shb src homol 2 domain-containing transform prot 8 1,8 1416034_at Cd24a CD24a antigen -1 ,6 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,9
26 adhésion cellulaire z score= <1,96 2,28 <1,96 <1 ,96 <1 ,96 <1 ,96 1448290_at Pap pancreatitis-associated protein 4,6 1457823_at Cyr61 cysteine rich protein 61 2,6 1450259_a_at Stat5a signal transducer & activator of transcription 5A 1,8 1419015_at Wisp2 WNT1 inducible signaling pathway protein 2 1,7 1441102_at AI987712 expressed sequence AI987712 -2,3
27 transport des chlorures z score= <1,96 <1,96 6,32 9,85 6,83 <1,96 1460259_s_at Clca 1 /Clca2 chloride channel calcium activated 1 and 2 -1,4 2,3 2,2 1417852_x_at Clca1 chloride channel calcium activated 1 -1 ,3 1,9 1,8 1417622_at SIc12a2 solute carrier family 12, member 2 -1 ,2
28 catabolisme des sucres z score= <1,96 <1,96 4,01 <1,96 4,48 <1,96 1417951_at Eno3 enolase 3, beta muscle 2,2 1,6 1418373_at Pgam2 phosphoglycerate mutase 2 2,1 1,6 1453128_at Xlkd1 extra cellular link domain-containing 1 1,7
29 transport des ions z score= <1,96 <1,96 3,62 4,19 <1,96 <1 ,96 1427306_at Ryr1 ryanodine receptor 1, skeletal muscle 2,1 1436239_at SIc5a5 solute carrier family 5, member 5 2,0 1,8 1420913_at SIco2a1 solute carrier organic anion transporter fam 2a1 1,6 1417852_x_at Clca1 chloride channel calcium activated 1 -1 ,2 1,9 1460259_s_at Clca1/Clca2 chloride channel calcium activated 1 and 2 -1,3 2,3 1417622_at SIc12a2 solute carrier family 12, member 2 -1,4 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1,8
- ----- - ------ --
49
Numéro des Symbole Ternes de traitement
ensembles des gènes Description 1 hr 3 hrs 6 hrs 12 hrs 18 hrs 24 hrs
de sondes (NF) (NF) (NF) (NF) (NF) (NF)
30 réponses aux blessures z score= <1,96 <1,96 3,27 <1,96 <1,96 <1,96 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 1419282_at Ccl12 chemokine (C-C motif) ligand 12 1,9 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45y 1,7 1450344_a_at Ptger3 prostaglandin E receptor 3 (subtype EP3) -1 ,8
31 hématopoïèse z score= <1,96 <1,96 2,45 <1,96 <1,96 <1,96 1421404_at Cxcl15 chemokine (C-X-C motif) ligand 15 3,5 1453851_a_at Gadd45g growth arrest and DNA-damage-inducible 45 y 1,7
32 énergie dérivée par l'oxydation des composés organiques z score= <1,96 <1,96 2,35 <1,96 4,58 4,21 1417951_at Eno3 enolase 3, beta muscle 2,2 1,6 1,7 1418373_at Pgam2 phosphoglycerate mutase 2 2,1 1,6 1,7 1448602_at Pygm muscle glycogen phosphorylase 2,1 1,9 1,7
33 métabolisme des acides amines z score= <1,96 <1,96 <1,96 5,77 <1,96 <1,96 1419524_at Tph1 tryptophan hydroxylase 1 3,4 1453128_at Xlkd1 extra cellular link domain-containing 1 1,9 1419549_at Arg1 arginase 1, Iiver -1 ,7
34 apoptose z score= <1,96 <1,96 <1,96 2,49 <1,96 <1,96 1460259_s_at Clca1/Clca2 chloride channel calcium activated 1 and 2 2,3 1454903_at Ngfr nerve growth factor receptor, member 16 1,8
35 métabolisme de la phosphocréatine z score= <1,96 <1,96 12,99 <1,96 <1,96 19,28 1417614_at Ckm creatine kinase, muscle 2,3 1,8 1428722_at Ckmt2 creatine kinase, mitochondrial 2 2,0 1,6
- -- - - -- - -----
50
1.3 Discussion
On ne peut présenter des résultats de biopuces sans parler de la réplication de l' expérience.
Si le seul intérêt de ce mémoire était de répertorier, à un temps donné et hors de tout doute,
le plus grand nombre de gènes sensibles à l' action de l'E2 dans la glande mammaire de
souris, un échantillon d' ARN distribué sur 6 biopuces aurait suffi. Avec 6 biopuces,
l' analyse statistique aurait-elle été plus puissante ? Certaines erreurs n' auraient pas été
totalement évitées puisqu' il y aura toujours des sources d' erreurs inhérentes à la
technologie des biopuces. Notre choix a été de prendre une biopuce par temps de
traitement (6 au total). Contrairement à la première, cette option a permis de regrouper et
d'identifier les gènes co-régulés, d'établir des profils d'expression au cours du temps et
d' identifier les processus cellulaires impliqués. Malheureusement, il y beaucoup
d' inconnus et pas encore assez de moyens pour s'assurer d'avoir bien associé le processus
cellulaire aux gènes d'intérêt. De plus, il y a plusieurs cas où de nouvelles fonctions sont
attribuées à des gènes connus. Par exemple, nos résultats ont montré que le processus
cellulaire majeur suite au traitement à l'estradiol est la contraction musculaire. Ce résultat
est un peu surprenant à prime abord. Une explication possible serait la surestimation de ce
processus cellulaire par rapport à la sous-estimation de d'autres processus. Le « z score »
est une façon de calculer, peut-être qu'une autre méthode aurait été plus appropriée pour le
type de données que nous avions. Il existe également une possibilité que les biopuces
d'Affymetrix ne soient pas appropriées pour détecter les faibles niveaux d ' expression des
gènes dans la glande mammaire normale de souris. Il est dificille d'identifier des sentiers
majeurs d' intérêt lorsque le nombre de gènes fortement modulés par l'estradiol est petit.
Avec plus de gènes un processus cellulaire majeur peut se déplacer derrière d' autres
processus. Des logiciels sont maintenant disponibles pour déterminer quel type de
confection de biopuce est la plus appropriée pour faire ressortir un processus ou une
fonction cellulaire en particulier. Par exemple, certaines compagnies vont rendre
disponible un plus grand nombre de gènes relatifs à l' apoptose. Si 5 gènes reliés à
l'apoptose sont présents sur la biopuce et ces 5 gènes sont modulés dans l'échantillon
d'ARN, le « z score» est alors très élevé. Par contre si une compagnie dispose 50 gènes en
rapport à l' apoptose sur la biopuce, par rapport à nos 5 gènes modulés, ce processus sera
51
non significatif. Il est important de mentionner qu'il est faux de penser que tout le génome
de la souris est représenté sur une biopuce.
Que l'on soit d'avis ou non sur le nombre de biopuces par temps nécessaire pour avoir de
la robustesse statistique, les résultats sont indissociables du niveau de confiance accordé
aux données recueillies. En plus de la sensibilité inhérente de la technique des biopuces, le
choix de la méthode de normalisation a aussi un impact sur la décision de rejeter ou non un
gène, surtout si ce gène a un rôle important à jouer dans le tissu, et qu'en plus il soit
d'autant plus près du seuil critique de détection.
Par l'observation des courbes de concordance des gènes identifiés par les 2 méthodes de
normalisation MAS 5.0 et RMA, l'allure des courbes des profils d'expression est similaire,
mais variable sur la hauteur de l'intensité de certains points de la courbe i.e. le gène est
modulé de manière identique, sauf que la modulation du gène pour certain point de temps
est plus prononcée avec une méthode de normalisation qu'avec l'autre. Ceci explique en
partie pourquoi un gène apparaît dans une méthode de normalisation et pas dans l' autre.
RMA a tendance à donner des intensités plus basses que MAS5.0, mais quelques fois la
relation inverse s'applique. La sélection des gènes en est que plus laborieuse car il faut
porter un jugement critique sur chaque courbe à comparer.
Les gènes fortement régulés sont toujours détectés quelle que soit la méthode de
normalisation employée. C'est-à-dire, pour un gène donné, si la valeur du traitement se
démarque bien de la valeur contrôle. Cependant, modifier un paramètre dans une méthode
de normalisation peut amener des gènes peu modulés, c'est-à-dire ceux près de la limite
critique a être rejetés ou acceptés. Cette constatation s'applique au sein de la même
méthode. En effet, certains algorithmes de normalisation ont des paramètres modifiables
par l'utilisateur alors que d'autres paramêtres ne sont pas modifiables. Par exemple, avec
MAS 5.0, la valeur du seuil de détection, gènes classés présents (par défaut al <0.04) ou
absents (a22:0.04), est modifiable. Si on diminue al, le taux de faux détectés est réduit,
malheureusement, le taux de vrais détectés est aussi réduit. Ce seuil minimal de détection
recommandé ne donne pas toujours le taux exact de faux positifs. Certaines sondes sont
52
plus problématiques que d'autres. De plus, un utilisateur pourrait décider de normaliser les
45,037 ensembles de sondes et retirer celles qui lui semblent inadéquates. De la même
manière, on peut enlever certaines paires de sondes (PM/MM) qui semblent mauvaises à
l ' intérieur d'un ensemble de sondes, ou encore, utiliser toutes les sondes, sans rien exclure.
Une autre stratégie serait de normaliser les données par rapport à un groupe d' ensembles
de sondes qu'on dit de référence.
Pour obtenir une liste de gènes régulés, deux étapes sont nécessaires. Premièrement, il faut
normaliser les données. Deuxièmement, il faut choisir une méthode pour déterminer les
gènes différentiellement exprimés. La liste de gènes obtenue, après avoir appliqué
l' équation d ' expression différentielle, est largement tributaire de la méthode de
normalisation [45]. À partir des résultats que nous avons obtenus, nous avons observé que
les NFs déterminés par MAS 5.0 sont plus élevés que ceux déterminés par RMA. De plus,
les données de RMA sont mieux confirmés que celles de MAS 5.0. Plusieurs gènes
spécifiques à MAS 5.0 sont validés par qRT-PCR mais sont rejetés avec RMA (NF ~ 1.0).
Ceci est probablement dû au fait que RMA est plus conservateur. RMA normalise toutes
les biopuces, en considérant tous les temps de traitements à la fois en plus de stabiliser la
variance. Par contre, MAS 5.0 ne normalise qu'une biopuce à la fois, sans stabiliser la
variance. Ainsi, MAS 5.0 n'enlève peut-être pas assez la variation technique susceptible de
s' ajouter à la variation biologique. Le résultat est un signal plus fort avec moins de
résolution.
Une des raisons de l ' utilisation de la méthode RMA est sa performance dans les faibles
intensités. La méthode MAS 5.0, moins populaire qu'elle ne l'a déjà été, est utilisée par
ceux qui croient au bienfait de soustraire le MM du PM. Ce concept caractérise MAS 5.0
davantage dans la façon de l'utiliser que dans l'exclusivité de son utilisation.
Il est problématique de sélectionner une seule méthode de normalisation puisque chaque
méthode fait ressortir un certain nombre de gènes régulés qui sont différents d'une autre
méthode. Étant donné que les gènes fortement régulés apparaissent habituellement avec les
deux méthodes de normalisation, l'utilité de comparer les gènes différentiellement
53
exprimés par plus d'une méthode serait d'augmenter le nombre de gènes acceptés en
analysant particulièrement les gènes à la limite du seuil minimal de sélection (NF) c' est-à
dire les gènes faiblement modulés ou les gènes de faibles intensités mais par contre, qui
peuvent donner des NFs élevés ou acceptables. Pour ce faire, en plus de la notion de « P
value» pour MAS 5.0 et des valeurs d' intensité (MAS 5.0 et RMA), il serait bien d' ajouter
un indice de dispersion. Cet indice de dispersion indique comment le duplicata de biopuce
s' écarte de la moyenne des deux. Dans le cadre de cette étude, seules les valeurs d' intensité
des gènes sur les biopuces contrôles ont été obtenues en duplicata. La dispersion représente
l' écart entre les intensités d 'un gène sur deux biopuces contrôles par rapport à la moyenne
des deux intensités pour ce même gène. Ainsi, une valeur de dispersion de 33% signifie
que l' intensité du gène sur une biopuce est la moitié de l ' intensité du gène sur l' autre
biopuce. Dans cet exemple, une valeur de dispersion de 33% est moins dramatique dans les
basses intensités que dans les hautes. On peut observer des valeurs de dispersion de plus de
50%, dans les pires cas de plus de 80%, et, dans les meilleurs cas, il est parfois possible
d ' avoir des valeurs de 0%. Ce dernier cas indique que les intensités des duplicata sont
identiques. Dans certains cas ou les intensités des sondes sont faibles, le pourcentage de
dispersion, qui peut varier d'une méthode de normalisation peut être un indicateur. Par
exemple, nous avons observé que le pourcentage de dispersion des valeurs d' intensité d'un
gène sur les biopuces contrôles pouvait être de 3.5% lorsque les données étaient
normalisées par RMA alors qu'il était de 35% selon les données normalisées par MAS 5.0.
Ce gène serait probablement à rejeter avec MAS 5.0 mais accepté avec RMA malgré le
faible niveau d'expression. Le point faible d'avoir choisi de sélectionner les gènes par le
NF de ±2.00 est qu'il ne respecte pas le fait qu'un NF de 2.00 pour MAS 5.0 ne veut pas
dire nécessairement un NF de 2.0 pour RMA. Chaque méthode, pour chaque gène, a sa
propre valeur de seuil c'est-à-dire qu'un NF de 2.00 avec MAS 5.0 peut équivaloir à un NF
de 1.80 ou 2.20, dépendemment de la performance des sondes ce qui ne peut, en pratique
pour l'instant, être déterminé avec précision.
Les connaissances actuelles sur les gènes stimulés par l 'E2 ne sont peut-être pas assez
suffisantes pour permettre de mettre en évidence une cascade de gènes en particulier,
Cependant, on retrouve plusieurs gènes modulés par l'E2 dans la glande mammaire comme
54
ERa, PRLR et PGER, déjà rapportés dans la littérature. On peut malgré tout constater que
la quantité d'ARNm du récepteur de l'E2a diminue, 3 heures après l'injection d'E2, la
cellule ayant probablement moins besoin en récepteur. De plus, on remarque que
l'inhibition de l'expression du gène CITED 1 concorde avec la diminution de l' expression
du récepteur de l' E2. Certains auteurs [46-47] ont suggéré que le gène CITED 1
désensibiliserait la glande mammaire à l'E2 en agissant au niveau du promoteur.
Si on se basait sur le « z score » la plupart des gènes modulés par E2 seraient impliqués
dans l'organisation du cytosquelette (maintien de l' intégrité, polymérisation de l'actine et
j onctions adhérentes). On retrouve également un petit nombre de gènes impliqués dans le
développement musculaire squelettique. Puisque les glandes mammaires chez la souris
n 'ont pas été prélevées en profondeur, il est peu probable, bien que toujours possible, que
ces résultats soient dus à de la contamination par des tissus musculaires avoisinants. Des
protéines impliquées dans la contraction musculaire : troponin C, actin, tropomyosin, la
chaîne lourde de la myosine et la dystrophine sont également présentes dans les tissus non
musculaires, suggérant qu'elles peuvent avoir des fonctions autres que celles connues [48].
Les cellules myoépithéliales contiennent, entre autres, une grande quantité de micro
filaments, et des protéines contractiles. Par exemple, le gène Tnni2 est associé au muscle
squelettique, qui, par un mécanisme de phosphorylation, est une pompe à proton ATPase.
Ainsi il faut porter l'accent plus sur la fonction que sur le tissu auquel les gènes sont
asssociés. En effet, le gène Tnni2 est présent dans le cartilage où il agit comme inhibiteur
de l' angiogenèse, et il est associé aux métastases tumorales [48]. Le facteur de
transcription Eefl a2 exprimé dans le muscle squelettique, est impliqué dans la
différentiation myogénique. Il est anti-apoptotique pour les myotubes, c'est un oncogène
potentiel dans le cancer de l'ovaire puisqu'il peut contribuer à la formation de foyers,
permettre la croissance et diminuer le temps de doublage des fibroblastes [49].
Dans le paragraphe précédant la question à laquelle il fallait répondre était de savoir si les
connaissances sur les gènes musculaires pouvaient être transposées dans un autre tissu. Si
on faisait abstraction bien sûre de l'expérimentation en laboratoire qui démontrerait la
présence ou non protéine est présente ou non, Plaçons nous du côté de l'hormone. Est-ce
55
que l 'E2 peut être favorable à la modulation de gènes musculaires? À partir d'une librairie
d'ADNc de glande mammaire humaine, ils ont découvert que Tnni2 est un co-activateur du
gène estrogen receptor-related receptor alpha [50]. D' autres troponines sont modulées:
Tncc 1 et Tnnc2, impliqués dans la régulation de la contraction musculaire, et Tnnt3 qui est
en plus un constituant structural du cytosquelette. Une chose est claire, l' observation de la
glande mammaire montre qu' il y a eu croissance après l' injection d'E2. Les marqueurs de
la croissance épithéliale sont les kératines. Il y a deux cytokératines glandulaires : Krt8 (un
marqueur luminal) et Krt18. Dans la différenciation des cellules épithéliales, on a le gène
Krt4.
Les logiciels tel Mappfinder qui, par le « z score » calculé, mettent en évidence et classent
les processus cellulaires sont utiles seulement si l'utilisateur replace les données dans leur
contexte. C' est un aide servant au regroupement pour éviter d' avoir à jauger chaque gène
sur une base individuelle, et non une certitude. Si on répertorie les gènes en lien avec le
terme liaison au calcium «<ion calcium binding») le processus prédominant ne serait plus
ceux se rapportant au tissu musculaire. Il a été démontré qu'un « knock-out» du récepteur
de la vitamine D chez des souris affecte la morphologie de la glande mammaire par un
mécanisme qui n 'est pas encore élucidé [51]. Qui dit calcium dit vitamine D, elle est
responsable de l ' homéostasie du calcium. Le calcium n ' est peut-être pas exclusivement
réservé à la contraction musculaire. Pourrait-il avoir comme fonction le maintient de
l' intégrité de la structure de la glande mammaire pendant la croissance? La vitamine D3
inhibe la croissance des cellules de tumeurs du sein qui sont dépendantes ou indépendantes
du récepteur des estrogènes [52]. Des 16 gènes liés au calcium il y en a 8 en lien avec le
tissu musculaire: Tnncl , Tnnc2, Ryrl, Casql, Atp2al , Tcap, ActaI, Actn3 . Actn3 qui
possèdent des domaines de liaisons au calcium et à l' actine. On le voit en relation avec la
structure du cytosquelette, les jonctions serrées. C'est un modulateur du calcium, il possède
un capteur de calcium. Tcap (processus: développement musculaire) est en lien avec
ActaI (processus: motilité cellulaire) dans l' assemblage des myofibrilles. ActaI , très
fortement exprimé dans la glande mammaire (www .infonnatics. j ax. org), est en lien avec le
cytosquelette de l' actine et les filaments de l' actine. Atp2al par l'entremise d'une pompe
ATPase entraîne une déplétion en calcium à partir des réserves du réticulum
- -- -----------------------------------------------------------------------------------~
56
endoplasmique et sarcoplasmique. Tncc 1 et Tnni2 peuvent lier l' actine, ce sont des gènes
sensiblent à la présence de calcium. Stat5a est en lien avec la liaison au calcium, il est aussi
responsable de la régulation de la différentiation épithéliale. Mais il y a tellement de
fonctions auxquelles est rattaché Stat5a qu'il faut se demander si ce que je viens de
mentionner s' applique aux données. Seule l' expérimentation pourrait confirmer si les liens
sont véritables entre le calcium, les gènes musculaires, et la formation potentielle d'un
complexe, par l ' intermédiaire du calcium et de l' actine. Aussi si les gènes de la motilité
pourraient former un tout structurel qui pourrait favoriser la croissance de la glande
mammaire. En tout cas, ce qui a vraiment été démontré est que la vitamine D régule le
phénotype des cellules du cancer du sein en changeant l ' architecture des filaments d' actine
et l' allure des microtubules, et qu'elle a la capacité de promouvoir les contactes entre les
cellules [53].
57
CONCLUSION
En se basant sur le faible nombre de gènes régulés et aux valeurs de NF peu élevées, la
glande mammaire de la souris non gestante est un tissu moins fortement régulé par rapport
à une souris gestante, ou en fin de lactation où le tissu subi un remodelage structurel. Il ne
fallait pas s' attendre à la mise en évidence d'un sentier majeur.
En plus de la valeur de « P value» et de la valeur d' intensité, nous avons vu l' utilité d'un
indice de dispersion lorsque l' on utilise deux méthodes de normalisation afin d' augmenter
le nombre de gènes. On améliore ainsi la prise de décision de rejeter ou non un gène,
sachant que certaines sondes ont un comportement variable dû à un vice de confection, ou
à un manque de spécificité par rapport à certains gènes. Ainsi, le calcul d'un indice de
dispersion élevé pourrait être indicateur de l'existence de ce type de sonde dans l' ensemble
de sondes étudiées. Il faudrait donc suivre de plus près la variabilité de cet ensemble de
sondes dans le tissu à d'autres temps ou dans un autre tissu.
Pour augmenter le taux de confiance accordé aux résultats obtenus, j'opterai pour ajouter
une biopuce avec un inhibiteur de l'E2, et une autre biopuce avec de l'ARN provenant de
souris intactes (sans ovariectomie) plutôt que plusieurs biopuces pour un traitement à l'E2.
Ceci permettrait de voir les effets de la castration (perte d' estrogènes), et retour au
phénotype intact lors de l' ajout de l'E2. L'ajout de plusieurs mesures identiques n' apporte,
autre que la crédibilité statistique, que l'addition de quelques gènes de plus à la liste, car
les gènes fortement modulés et forts en intensités ont tendance à être confirmés.
Un des sujets importants de la discussion a été de s'attarder sur la question à savoir si
c'était possible que des gènes musculaires s'expriment dans la glande mammaire de souris.
Certains articles cités semblent démontrer que oui c' est possible. De plus, ces
interrogations ont eu un effet additionnel, celui de faire preuve de vigilance quand on veut
tirer des conclusions à partir de logiciels qui permettent de mettre en évidence des
processus cellulaires. Plusieurs logiciels existent et chacun s'appuie sur une méthode
statistique en particulier. C'est l'expérience de l'utilisateur et ses connaissances qui
58
permetent, mieux que le logicel d'avoir un regard critique et interrogateur sur les résultats.
C'est à l'utilisateur de chercher et consulter les articles qui comparent et critiquent ces
logiciels.
En ce qui concerne les méthodes de normalisation, plusieurs méthodes existent. La plus
populaire est RMA, mais MAS5. 0 est encore utilisée. Il est difficile pour moi de dire
laquelle est la meilleure car les opinions divergent trop. Ce mémoire ne critique pas à
proprement parler les méthodes de normalisation, mais il met en évidence certains faits. Ce
qui attire mon attention c'est que MASS.O a tendance à donner des valeurs de ratio plus
élevées que RMA, et que RMA confirme mieux (il donne plus de gènes communs avec les
résultats de qRT_PCR) que MASS.O. Ainsi, MASS.O donnent plus de gènes au-dessus du
seuil de sélection fixé mais également plus de faux positifs. Quoi qu'il en soit, à ma
connaissance, il n'exite pas de méthode de normalisation qui possède un parfait contrôle
sur les taux de faux positifs et de faux négatifs. Bien que ce sujet n'a pas été abordé dans
mon mémoire et ne fait pas partie des résultats, on constate que plus on augmente le
nombre de biopuces pour le même échantillon d'ARNm et plus on obtient de précision sur
la mesure.
59
RÉFÉRENCES
1 Richert M.M. et coll. 2000 An Atlas of Mouse Marnmary Gland Developrnent, 1. of
Marnmary Gland Biol. Neoplasia 5:227.
2 KrKraus W. L. et coll. 1995 Inhibitory cross-talk between steroid hormone receptors:
differential targeting of estrogen receptor in the repression of its transcriptional
activity by agonist- and antagonist-occupied progestin receptors. Mol Cell Biol.
15: 1847.
3 Silberstein G. B. et coll. 1996 Progesterone receptors in the rnouse marnrnary duct:
distribution and developmental regulation. Cell Growth Differ. 7:945.
4 Anderson E. et coll. 2004 Steroid receptors and cell cycle in normal marnrnary
epitheliurn, 1. of Marnrnary Gland Biol. Neoplasia 9:3.
5 Shyarnala G. et coll. 1992 Estrogen dependent regulation of estrogen receptor gene
expression in normal rnarnrnary gland and its relationship to estrogenic sensitivity.
Receptor. 2: 121.
6 Labrie F. et coll. 1998 DREA and the intracrine formation of androgens and
estrogens in peripheral target tissues: its role during aging. Steroids., 63 :322.
7 Reid G. et coll. 2002 Ruman estrogen receptor-alpha: regulation by synthesis,
modification and degradation. Cell Mol Life Sei. 59:821.
8 Diel P. 2002 Tissue-specifie estrogenic response and molecular mechanisms. Toxicol
Lett. 127:217.
9 Almeida M. et coll. 2005 Classical Genotropic versus Kinase-initiated Regulation of
Gene Transcription by the Estrogen Receptor Alpha. Endocrinology 147: 1986.
10 Revankar C. M. et coll. 2005 A transmembrane intracellular estrogen receptor
mediates rapid cell signaling. Science 307: 1625.
Il Migliaccio A. et coll. 2002 Sex steroid hormones act as growth factors. J Steroid
Biochem Mol Biol. 83:31.
12 Kushner P. 1. et coll. 2000 Estrogen receptor pathways to AP-l. J Steroid Biochem
Mol Biol. 74:311.
----~~--~--~--- - - -------- --~
60
13 Keller H. et coll. 1995 Signaling cross-talk between peroxisome proliferator
activated receptor/retinoid X receptor and estrogen receptor through estrogen
response elements. Mol Endocrinol. 9:794.
14 Shyamala G. et coll. 1990 Developmental regulation of murine mammary
progesterone receptor gene expression. Endocr. 126:2882.
15 Sak K. , Everaus H. 2004 Nongenomic effects of 17beta-estradiol--diversity of
membrane binding sites. J Steroid Biochem Mol Biol. 88323.
16 Dowsett M. and Ashworth A. 2003 New biology of the oestrogen receptor. Lancet
362:260.
17. David G. et coll. 2005 Global Gene Expression Analysis of Estrogen Receptor
Transcription Factor Cross Talk in Breast Cancer: Identification of Estrogen
Inducedl Activator Protein-1-Dependent Genes. Molecular Endocrinology 19:
362.
18 Stoughton R. B. 2005 Applications of DNA microarrays in biology, Annu. Rev. ,
Biochem., 74:53.
19 Hardiman G. 2004 Microarray platforms - comparaIsons and contrasts. Future
Medecine 5:487.
20 Chudin E. et coll. 2001 Assessment of the relationship between signal intensities and
transcript concentration for Affymetrix GeneeChip arrays. Genome Biology
3:research0005.1
21 Rockett J. C. et coll. 2004 Confirming microarray data - IS it really necessary?
Genomics 83:541.
22 Dudoit S. et coll. 2002 Statistical method for identifying genes with differential
expression in replicated cDNA microarray experiments. Stat. Sin. 12: Ill.
23 Li C. and Wong W.H. 2001 Model-Based analysis of oligonucleotide arrays: model
validation, design issues and standard error application. Genome
Biol.,2:RESEARCH0032.
24 Workman C. et coll. 2002 A new non-linear normalisation method for reducing
variability in DNA microarray experiments. Genome Biol. 3 research0048.
25 Boistad B. M. et coll. 2003 A comparaison of normalization methods for high density
oligonucleotide array data based on variance and bias. Bioinformatics 19: 185.
61
26 Lazaridis R. A. et coll. 2002 A simple method to improve probe set estimates from
oligonucleotide arrays. Math. Biosci. 176:53.
27 Irizarry, R. et coll. 2003 Exploration, normalization, and summaries of high density
oligonucleotide array probe level data. Biostatistics 4:249.
28 Li C. and Wong W.H. 2001 Model-Based analysis of oligonucleotide arrays:
Expression index computation and outlier detection. PNAS 98:31.
29 Sasik R. , Calvo E. , Corbeil J. 2002 Statistical analysis of high-density
oligonucleotide arrays: a multiplicative noise model. Bioinformatics 18: 1633.
30 Irizarry R. A. et coll. 2004 A model based background adjustement for
oligonucleotide expression arrays. Technical Report, John Hopkins University,
Department of Biostatistics Working Papers, Baltimore, MD.
www.bepress.com/jhubiostat/paper1.
31 Naef F. et coll. 2002 DNA hybridization to mismatched templates: a chip study,
Phys. Rev. E. 65:40902.
32 Naef, F. 2003 Solving the riddle mismatch: Labellind and effective binding ln
oligonucleotide arrays. Physical Review 68:011906.
33 Zhang L. et coll. 2003 A model of molecular interactions on short oligonucleotide
microarray . Nature Biotechn. 21: 818.
34 Hubbell H. 2004 Designing M-estimators for expressIon analysis: PLIER.
mbi.osu.edu/2004/ws1materials/hubbell.ppt.
35 Affymetrix 2004 Technical note. GeneChip expressIon platform: comparaIson,
evolution, and performance. Affymetrix.com.
36 Âstrand M. et coll. 2003 Contrast of normalization of oligonucleotide arrays. 1.
Comput. Biol. 10:95.
37 Shedden K. et coll. 2005 Comparison of seven methods for producing Affymetrix
expression scores based on False Discovery Rates in disease profiling data.
BMC Bioinformatics 6:26.
38 Reimers M. and Weinstein JN. 2005 Quality assessment of microarrays: visualization
of spatial artifacts and quantitation of regional biases.
BMC Bioinformatics 6:166.
1
L
62
39 Mutch D. M. et coll. 2002 The limit fold change model : A practical approach for
selecting differentially expressed genes from microarray data. BMC Bioinformatics
3:17.
40 Doniger S. W. et coll. 2003 MAPPFinder: using Gene Ontology and GenMAPP to
create a global gene-expression profile from microarray data. Genome Biol. 4:R7.
41 Luu-The V. et coll. 2005 Improved real-time RT-PCR method for high-throughput
measurements using second derivative calculation and double correction.
Biotechniques. 38 :287.
42 Easton DF. et coll 2007 Genome-wide association study identifies novel breast
cancer susceptibility loci. Nature 447: 1087.
43 Anastasi S. et coll 2005 Loss of RALT/MIG-6 expreSSIon in ERBB2-amplified
breast carcinomas enhances ErbB-2 oncogenic potency and favors resistance to
Herceptin. Oncogene. 24:4540.
44 Inuzuka H. et coll 1999 DifferentiaI regulation of immediate early gene expression in
preadipocyte cells through multiple signaling pathways. Biochem Biophys Res
Commun. 265:664.
45 Hoffmann R., Seidl T., Dugas M. 2002 Profound effect ofnormalization on detection
of differentially expressed genes in oligonucleotide microarray data analysis.
Genome Biol. 3:RESEARCH0033.
46 Yahata T. et coll. 2001 Selective coactivation of estrogen-dependent transcription by
CITED1 CBP/p300-binding protein. Genes Dev. 15:2598.
47 Howlin 1. et coll. 2006 CITED 1 homozygous null mice display aberrant pubertal
marnrnary ductal morphogenesis. Oncogene 25: 1532.
48 Moses M. A. et coll. 1999 Troponin 1 is present in human cartilage and inhibits
angiogenesis. Proc Nad Acad Sci USA. 96:2645.
49 Sharma S. et coll. 2007 Characterization of a putative ovarian oncogene, elongation
factor 1 alpha, isolated by panning a synthetic phage display single-chain variable
fragment library with cultured human ovarian cancer cells. Clin Cancer Res.
13:5889.
63
50 Li Y. et coll. 2008 Fast skeletal muscle troponin 1 is a co-activator of estrogen
receptor-related receptor alpha. Biochem Biophys Res Commun. 369:1034.
51 Zinser G. et coll. 2002 Vitamin D(3) receptor ablation alters mammary gland
morphogenesis. Development 129:3067.
52 Van Weelden K et coll. 1998 Apoptotic regression of MCF -7 xenografts in nude mice
treated with the vitamin D3 analog, EB 1 089. Endocrinology, 139:2102.
53 Pendas-Franco N. et coll. 2007 Vitamin D regulates the phenotype of human breast
cancer cells. Differentiation 75: 193.