Master 2ème
année cohabilité : Université
d’Angers, de Bretagne Occidentale de Nantes,
de Poitiers, de Rennes 1, de Tours et
Agrocampus Ouest
Institut de Recherche en Horticulture et
Semences
Centre INRA d’Angers-Nantes
RAPPORT de STAGE EFFECTUE
par
Anaïs GOASCOZ
à
IRHS Centre INRA d’Angers-Nantes
en vue de l'obtention du
Master 2ème Année STS
Spécialité : Biologie Végétale Intégrative : Gène, Plante, Agrosystème
(BioVIGPA)
(Responsable de stage : Hélène
Muranty, Chercheur)
Titre du Sujet :
Evaluation de la sélection génomique pour la résistance à la tavelure du pommier
Soutenance devant le jury d'examen le 23 Juin 2016
Master 2ème
année cohabilité : Université
d’Angers, de Bretagne Occidentale de Nantes,
de Poitiers, de Rennes 1, de Tours et
Agrocampus Ouest
Institut de Recherche en Horticulture et
Semences
Centre INRA d’Angers-Nantes
RAPPORT de STAGE EFFECTUE
par
Anaïs GOASCOZ
à
IRHS
Centre INRA d’Angers-Nantes
en vue de l'obtention du
Master 2ème Année STS
Spécialité : Biologie Végétale Intégrative : Gène, Plante, Agrosystème
(BioVIGPA)
(Responsable de stage : Hélène
Muranty, Chercheur)
Titre du Sujet :
Evaluation de la sélection génomique pour la résistance à la tavelure du pommier
Soutenance devant le jury d'examen le 23 Juin 2016
Remerciements
Tout d’abord, j’aimerais remercier Monsieur Jean-Pierre Renou pour m’avoir
accueilli au sein de l’IRHS.
Je remercie également Charles-Eric Durel pour m’avoir accueilli au sein de son
équipe et je remercie aussi tous les membres de l’équipe.
Je remercie Hélène Muranty pour m’avoir aidé, guidé et conseillé durant tout ce
stage.
Je remercie également le GIS fruit pour avoir financé mon stage.
Sommaire
I – Introduction………………………………………………………....……………........1
1.1 - La pomme (Malus x domestica)…………………………………………………..…. 1
1.2 - La tavelure du pommier (Venturia inaequalis)………………………………………..1
1.3 - La sélection génomique…………………………………………….…..……………...3
1.4 - Objectif du stage ……………………………………………………………………....7
II - Matériels et méthodes………………………………………………………………….8
2.1 - Matériel végétal………………………………………………………………………...8
2.2 - Phénotypage de la population HiDRAS ……………………………………………….8
2.3 - Phénotypage de la core collection……………………………….…………………….9
2.4 - Génotypage des deux populations……………………………………..……………….9
2.5 -Mise en forme des données et calcul de la prédiction génomique……………………..10
2.6 – Modèles de prédiction génomique utilisés……………………………………………10
III – Résultats……………………………………………………………………………….13
3.1 - Efficacité de prédiction des modèles pour les caractères étudiés dans la population
HiDRAS……………………………………………………………………………………...13
3.2 - Efficacité de prédiction des modèles pour les caractères étudiés sur la core
collection……………………………………………………………………………………..14
3.3 - Comparaison de l’efficacité de prédiction des différents modèles de prédiction selon les
deux populations analysées……………………………………………………………….….15
IV – Discussion……………………………………………………………………………....16
V – Conclusion et perspectives………………………………………………………..…….19
Bibliographie
Liste des abréviations
AUDPC : Area Under Disease Progress Curve (aire sous la courbe de la progression de la
maladie)
BL : Bayesian LASSO
EBV : estimated breeding values (valeurs en descendance estimées)
GEBV : genomic estimated breeding values (valeurs génomique en descendance estimées)
GBLUP : genomic best linear unbiased prediction (meilleure prédiction génomique linéaire
non biaisée)
GS : genomic selection (sélection génomique)
HiDRAS : High-quality Disease Resistant Apples for a Sustainable Agriculture
INRA : Institut National de la Recherche Agronomique
LASSO : least absolute shrinkage and selection operator
QTL : quantitative trait loci
SAM : sélection assistée par marqueurs
SNP : single nucleotid polymorphism
SSR : simple sequence repeats
RF : random forest
RKHS : reproducing kernel Hilbert spaces
1
I - Introduction
1.1 - La pomme (Malus x domestica)
Le pommier domestique (Malus x domestica Borkh, famille des Rosacées, tribu des
Pyreae) est l’un des arbres fruitiers cultivés le plus répandu des régions tempérées du monde
et avec l’une des plus grosses productions des régions tempérées dans le monde (Velasco et
al., 2010). Par exemple, pour l’année 2014, environ 71 millions de tonnes (Mdt) de pommes
ont été produites dans le monde avec pour principal producteur la Chine qui compte à lui seul
53% (37,8 Mdt) de la production mondiale. A l’échelle européenne, les principaux
producteurs de pommes sont la Pologne (3,75 Mdt), l’Italie (2,46 Mdt) et la France (1,53 Mdt)
(France Agrimer). La pomme peut être consommée de diverses manières : crue ou
transformée sous forme de compote, de jus de pomme ou de cidre.
Malgré la grande diversité des cultivars de pommiers disponibles, la production
mondiale de pomme est basée aujourd’hui sur la culture de deux douzaines de cultivars qui
sont propagés de manière clonale par greffage sur moins d’une douzaine de porte-greffes
différents. Ce peu de diversité et ce non renouvellement de la génétique des pommiers rendent
ceux-ci vulnérables aux pathogènes qui eux évoluent constamment. Cela nécessite alors un
très grand apport d’intrants chimiques pour éviter une infection par les pathogènes,
notamment le champignon Venturia inaequalis responsable de la tavelure du pommier
(Myles, 2013 ; Cornille et al., 2014).
1.2 - La tavelure du pommier (Venturia inaequalis)
La tavelure du pommier, une maladie fongique causée par le champignon Venturia
inaequalis est l’une des maladies du pommier les plus sérieuses dans le monde et a été
signalée dans tous les pays producteurs. Cette maladie est la plus sévère dans les pays
tempérés où des climats humides et froids au début du printemps facilitent l’entrée du
pathogène dans la plante.
Figure 1 – Cycle de vie de Venturia inaequalis (Bowen et al., 2011)
2
V.inaequalis présente deux phases de développement (figure 1) : une première phase
saprophytique où le champignon développe des ascospores (spores sexuées) dans des
pseudothèces durant l’hiver sur les feuilles tombées au sol. Au printemps, ces ascospores sont
libérées par la pluie. Cette libération coïncide avec le bourgeonnement des feuilles et des
fleurs de la plante hôte. S’ensuit une seconde phase parasitaire où les ascospores pénètrent
l’hôte au travers de la cuticule pour développer des stromata et des conidies (spores asexuées).
Ce sont ces dernières qui causent les lésions brunes poudreuses caractéristiques de la tavelure.
Les conidies sont ensuite disséminées par la pluie et le vent ce qui permet une infection
secondaire à l’intérieur des vergers durant le développement des fruits (Bowen et al., 2011;
Bus et al., 2011). Les lésions sur les fruits ne sont pas toxiques et ne sont pas impropres à la
consommation, mais leur aspect les rendent impropres à la commercialisation comme
pommes de table. Ces fruits sont alors déclassés et peuvent être utilisés seulement en
transformation (en compote par exemple). La récolte, si elle a lieu, est alors faite à perte car
les coûts de récolte sont plus élevés que les bénéfices de la vente des pommes tavelées. La
tavelure est la maladie du pommier qui entraîne les plus grandes pertes économiques (jusqu’à
70 % de perte dans la production de pommes) (Jha, Thakur et Thakur, 2009)
Pour lutter contre la tavelure du pommier, vingt pulvérisations en moyenne de
fongicides par an sont requises qui viennent s’ajouter aux quinze pulvérisations en moyenne
d’insecticides et d’engrais qui sont nécessaires pour d’autres raisons (Brun, Didelot et Parisi,
2007). Cependant, avec le plan ecophyto II (plan ecophyto II), les intrants chimiques vont être
diminués et limités. Il faut donc développer et favoriser des voies alternatives pour lutter
contre la tavelure du pommier. Un de ces moyens alternatifs est la lutte génétique et le
développement de variétés résistantes. Ces variétés devront avoir des qualités agronomiques
et organoleptiques qu’ont les variétés commerciales sensibles à la tavelure, et aussi présenter
une résistance durable dans le temps car la sélection classique de nouvelles variétés de
pommier est un processus laborieux, long et cher. De plus, le pommier est une espèce pérenne
qui ne produit pas de fruit pendant une phase juvénile qui peut durer de 3 à 7 ans (Myles,
2013) et un verger est planté et exploité durant 15 à 20 ans en moyenne.
Contrairement aux méthodes de sélection classique, la sélection génomique pourrait
réduire le temps nécessaire à la sélection d’individus présentant les caractères économiques
d’intérêt, ici, des caractères de résistance, car elle peut être réalisée sur des jeunes plants.
Figure 2 – Processus de la sélection génomique (Heffner, Sorrells et Jannink, 2009)
3
1.3 - La sélection génomique
1.3.1 - Principe
La sélection génomique (GS) a été présentée pour la première fois dans un article de
Meuwissen et al. en 2001. Celui-ci proposait une alternative à la sélection assistée par
marqueurs (SAM) qui présente des limitations majeures. En effet, la SAM est efficace pour
utiliser des loci/QTL à large effets avec une association connue avec un marqueur, mais pour
les gènes qui ont de petits effets et qui ségrégent, la SAM ne peut les identifier. Les défauts de
la SAM viennent de sa façon de partager sa tâche en deux parties : identifier les QTL en
premier, puis estimer leurs effets (Jannink, Lorenz et Iwata, 2010).
Les principes de la sélection génomique sont que tous les marqueurs couvrant le
génome sont utilisés pour que potentiellement toute la variance génétique soit expliquée par
ces marqueurs et que tous les QTL présents soient au en déséquilibre de liaison (DL) avec au
moins un des marqueurs (Goddard et Hayes, 2007).
En pratique, la sélection génomique est appliquée sur une population d’individus,
appelée la population candidate, dont on connait seulement les données génotypiques grâce
aux calculs des GEBV (genomic estimated breeding values) en utilisant un modèle statistique
de prédiction génomique. Ce modèle a été « entrainé » auparavant sur une population
d’individus qui ont des données génotypiques ainsi que des données phénotypiques et qui est
appelée la population d’entraînement. Cet entrainement va permettre d’estimer les paramètres
du modèle et en particulier d’estimer les effets des marqueurs qui vont être par la suite utilisés
pour calculer les GEBV de la population candidate (figure 2). Par conséquent, la sélection
d’individus qui n’ont pas de données phénotypiques peut être effectuée. (Heffner, Sorrells et
Jannink, 2009).
La limitation majeure de la sélection génomique est le coût financier du génotypage
des individus car le nombre de marqueurs doit être assez grand pour pouvoir capturer toute la
variance génétique. Heureusement ce coût s’est réduit au cours de ces dernières années
(Goddard et Hayes, 2007).
Figure 3 – Classification des modèles de régression. Ces modèles sont catégorisés
comme des modèles de régression paramétrique (A) ou non paramétrique (B) (Desta et Ortiz,
2014)
4
1.3.2 – Les modèles de prédiction génomique
Le modèle standard de génétique quantitative présume que les effets génétiques (ui) et
les effets environnementaux (εi) agissent ensemble pour produire les résultats phénotypiques
(yi) : yi = ui + εi (de los Campos et al., 2009). Avec la sélection génomique, les données
obtenues par les cartes de marqueurs denses couvrant tout le génome ont dû être incorporées
dans les modèles de prédiction génomique qui existaient jusqu’alors. Avec les technologies de
génotypage moderne, le nombre de marqueurs p dépasse largement celui des individus n. Ceci
a mis en lumière un problème appelé « large p, small n », que les modèles devaient résoudre
pour avoir des résultats non biaisés (de los Campos et al., 2013). Plusieurs méthodes ont été
alors proposées pour introduire les données des marqueurs dans les modèles de régression
déjà existant (figure 3). Les modèles peuvent être divisés en deux groupes. Tout d’abord, il y
a le premier groupe de modèles qui régressent les données phénotypiques sur les marqueurs
avec la fonction de régression ui = g(xi, β) où xi est un vecteur de marqueurs covariables et β
est un vecteur de coefficients de régression. Dans le deuxième groupe, il y a les modèles qui
considèrent les valeurs génétiques comme une fonction d’un individu et utilisent l’information
des marqueurs pour construire une structure de (co)variance entre les individus. Le premier
groupe inclut les modèles bayésiens (de los Campos et al., 2009). Dans un cadre bayésien,
l’effet d’un marqueur est représenté par une variable aléatoire qui est distribuée selon une loi
a priori. Ainsi, chaque modèle bayésien adopte une loi a priori de distribution différente pour
la variance des effets des marqueurs (figure 4) (Nakaya et Isobe, 2012). Les différents
modèles de prédiction diffèrent entre eux selon les paramètres inclus dans leur équation.
Chaque modèle de prédiction génomique a ses inconvénients et ses avantages et ils auront des
résultats différents selon la population ou selon les types de caractères d’intérêt pour lesquels
ils sont utilisés.
1.3.3 – La sélection génomique chez l’animal
L’article de Meuwissen et al (2001) démontrait avec des simulations qu’il était
possible d’atteindre pour des valeurs en descendance prédites (predicted breeding values) une
précision de 0.85 avec seulement les marqueurs (la précision est la corrélation entre les vraies
valeurs en descendance et les valeurs en descendance estimées (EBV : estimates breeding
values). Ce résultat de simulation a prouvé que potentiellement la précision des GEBV
Figure 4 – Lois a priori de distribution des effets des marqueurs les plus communes (de los
Campos et al., 2013)
5
pouvait être aussi haute que celle des EBV calculées à partir des tests effectués sur la
descendance qui était habituellement réalisés lors d’un programme de sélection classique chez
les bovins. La première étude empirique de la sélection génomique chez l’animal a été
réalisée par Legarra et al. (2008) chez la souris, mais la sélection génomique a surtout
progressé dans la sélection animale chez les bovins laitiers. Par exemple, quatre programmes
de sélection chez les bovins ont été effectués dans différents endroits du monde pour évaluer
la justesse des GEBV à partir de données empiriques. Les quatre programmes de sélection se
situant en Nouvelle-Zélande (Harris et al., 2008), en Australie (Hayes et al., 2009), aux Etats-
Unis (VanRanden et al., 2009) et aux Pays-Bas (Hayes et al., 2009) ont donné des résultats
similaires. Pour chaque programme, il a été montré que les GEBV avaient une meilleure
fiabilité que la prédiction des EBV utilisée dans la sélection conventionnelle. La fiabilité des
GEBV augmentait même avec un plus grand nombre d’individus testés dans une population
candidate de bovins.
Dans les programmes de sélection conventionnelle, pour trouver les taureaux ayant
une valeur génétique élevée, leurs descendances sont testées. Ainsi la sélection génomique
permettra de sélectionner des taureaux sans passer par le test de descendances et ses taureaux
pourront même être sélectionnés avant d’avoir atteint l’âge de se reproduire, ce qui implique
un gain de temps considérable pour un programme de sélection animale (Hayes et al., 2009).
1.3.4 – La sélection génomique chez les plantes
Chez les plantes, la sélection génomique a aussi été étudiée à travers des études de
simulations et des études empiriques pour voir ses avantages par rapport aux méthodes de
sélection classiques, mais elle n’est pas aussi développée que dans les programmes de
sélection animale. Contrairement aux animaux, les plantes cultivées appartiennent à une
diversité d’espèces qui ont des systèmes de reproduction, des temps de génération, des
structures de génome et des organes utilisés très différents. Les méthodes de sélection
conventionnelle comme la sélection phénotypique et la SAM s’adaptent aux différents types
d’espèces végétales, la sélection génomique devra aussi être adaptée (Nakaya et Isobe, 2012).
Les premières études de simulation de la GS qui ont été effectuées sur une espèce précise ont
été faites sur le maïs par Bernardo et Yu (2007) qui ont démontré que pour trois cycles de
sélection de lignées d’haploïdes doublés de maïs, la GS avait une réponse 18 à 43 % plus
grande que celle de la SAM. D’autres études de simulations ont été réalisées pour d’autres
6
types de populations végétales comme des lignées pures ou des populations allogames comme
chez le palmier à huile, pour observer l’efficacité de la GS en fonction du type de matériel
utilisé.
Des études empiriques ont aussi été réalisées sur les principales espèces agronomiques
comme le maïs, le blé ou encore l’orge. Chez le blé, Crossa et al. (2010) ont ciblé le
rendement en grain comme caractère et les précisions de prédiction des GEBV allaient de
0.48 à 0.61 selon l’environnement dans lequel se développaient les plants. La sélection
génomique a aussi été conduite sur des plantes pérennes où il est considéré que la GS sera
plus efficace que sur les plantes annuelles car leur cycle de vie est plus long. Par exemple,
chez Pinus taeda où une population de plein frères a été utilisée, les précisions de prédiction
des GEBV allaient de 0.3 à 0.83 selon les caractères de croissance et de qualité du bois
considérés (Isik et al., 2011). La GS serait plus utile chez les plantes pérennes car elle
permettrait de réduire le temps d’un cycle de sélection. Par exemple, chez le palmier à huile,
la sélection génomique pourrait aider à développer des variétés améliorées tous les 6 ans
contre 19 ans avec la sélection conventionnelle (Wong et Bernardo, 2008).
Chez le pommier, très peu d’études sur la sélection génomique ont été publiées.
Kumar et al. (2012) ont étudié l’impact de la GS pour les caractères de qualité de la pomme.
Cette étude a été faite sur une population de sept familles de plein-frères et en validation
croisée au hasard, d’où un fort apparentement entre la population candidate et la population
d’entrainement. Pour ces caractères, la sélection génomique pourrait être un avantage. En
effet, pour phénotyper la qualité des pommes, il faut attendre environ 7 ans que le pommier
puisse produire des fruits, ce qui entraine des coûts conséquents de phénotypage. Dans cette
étude, l’efficacité des GEBV allait de 0.67 à 0.89 pour six caractères de qualité de la pomme.
Une autre étude a été conduite sur les caractères clés du pommier, comme la taille du fruit ou
sa couleur. Dans cette étude, une population multi-parentale a été utilisée et l’efficacité de
prédiction était en général faible, elle allait de 0 à 0.5 selon les caractères. Ces résultats ont
mis en évidence l’importance de l’héritabilité et de la composition de la population
d’entraînement, qui devrait avoir un lien avec la population candidate, sur la variabilité de
l’efficacité de prédiction (Muranty et al., 2015)
7
1.4 - Objectif du stage
L’objectif de ce stage est de tester différents modèles de prédiction génomique en
comparant leur efficacité de prédiction. Ces modèles seront testés sur différentes populations
de pommiers qui diffèrent entre elles selon leur structure. Le caractère étudié sera la résistance
à la tavelure du pommier. Cela permettra de voir si la sélection génomique pourrait être
utilisée pour les caractères de résistance aux maladies chez le pommier.
Figure 5 - Pedigree des familles de la population HiDRAS
8
II - Matériels et méthodes
2.1 - Matériel végétal
2.1.1 - Population HiDRAS
La population nommée HiDRAS est composée de treize descendances en F1. Elle a
été constituée dans le cadre du projet européen HiDRAS (High-quality Disease Resistant
Apples for a Sustainable Agriculture)(Gianfranceschi et Soglio, 2004) à partir de
descendances produites dans le cadre du programme d’amélioration du pommier de l’INRA
d’Angers. Cette population compte 705 individus. Il est à noter que les parents des
descendances sont apparentés entre eux, on a donc ici une population en pedigree (figure 5).
2.1.2 - Core collection
La population nommée core collection provient des vergers conservatoires de
ressources génétiques de l’INRA d’Angers. Cette population est composée de 230 individus
qui représentent au mieux la diversité génétique de la collection INRA de variétés anciennes
et qui n’ont pas de lien de parenté entre eux (Lassois et al., 2016).
2.2 - Phénotypage de la population HiDRAS
Des greffons de l’ensemble des génotypes de la population ont été greffés sur des
porte-greffes. Une première partie des plants a été inoculée par pulvérisation au printemps
2005 avec un mélange de quatre souches monoconidiales de V.inaequalis (la souche EU-B04
qui est avirulente-Vf, et les trois souches EU-D42, 1066 et EU-NL24 qui sont virulentes-Vf),
puis l’ensemble des plants a continué sa croissance pendant deux mois. Ils ont ensuite été
placé en chambre froide (1°C) pendant deux mois et demi pour mimer la vernalisation. A
l’automne suivant, la seconde partie des plants a été inoculée par pulvérisation par le même
mélange de souches monoconidiales utilisé au printemps. Seulement deux génotypes par
descendance ainsi que les parents et les témoins sensibles ont été testés à la fois au printemps
et à l’automne. Les ancêtres ont été inoculés uniquement au printemps.
La sévérité de la sporulation a été notée sur feuilles à 14, 21 et 28 jours après
inoculation. L’AUDPC (Area Under Disease Progress Curve) a été calculée à partir des
Figure 6 – Diagramme de Venn montrant la répartition des individus de la core collection
utilisés pour les tests de résistance à la tavelure. AUDPC 2012 représente le test effectué en
2012, AUDPC_A2013 et AUDPC_P2013 les tests effectués à l’automne et au printemps de
l’année 2013 respectivement, et AUDPC 2016 représente le test effectué en 2016.
9
notations de sporulation réalisées aux trois dates et a été utilisée pour mesurer la sensibilité
des génotypes à la tavelure. Ce travail a été effectué par Vanessa Soufflet-Freslon.
2.3 - Phénotypage de la core collection
Quatre tests de résistance à la tavelure ont été réalisés au printemps 2012, au printemps
2013, à l’automne 2013 et au printemps 2016. Pour chaque test, les individus de la core
collection ont été greffés sur des porte-greffes, puis mis en serre où l’inoculation des souches
de tavelure du pommier par pulvérisation sur les feuilles des plants a été effectuée.
L’inoculum du printemps 2012 correspondait à la souche monoconidiale EU-B04, celui du
printemps 2013 contenait un mélange de cinq souches 104/163/EU-B04/EU-NL24/EU-D42.
L’inoculum de l’automne 2013 contenait la souche monoconidiale 104 et celui du printemps
2016 contenait la souche mononidiale EU-B04. Les populations des quatre tests contenaient
des individus différents et avaient une taille différente. Cependant, 152 individus étaient
communs aux quatre tests. Un diagramme de Venn a été réalisé pour illustrer les individus
communs et différents des quatre tests (figure 6).
Après l’inoculation, les plants ont été notés à 7, 14, 21 et 28 jours post-inoculation. A
partir de ces notations, l’AUDPC a été calculée. Ce travail a été réalisé par Diane Leforestier
pour les tests de résistance réalisés en 2012 et 2013 et par l’équipe Respom pour le test réalisé
en 2016.
2.4 - Génotypage des deux populations
La population HiDRAS a été génotypée à l’aide d’une puce 20K dans le cadre du
projet européen FruitBreedomics (www.fruitbreedomics.com/). 7549 marqueurs SNP ont été
retenus.
La population core collection a été génotypée à l’aide de la puce Axiom-Apple-480K
SNPs (Bianco et al., 2016) dans le cadre du projet FruitBreedomics. 275 223 marqueurs SNP
ont été retenus.
Figure 7 - Schéma du principe de la « k-fold cross-validation »
10
2.5 -Mise en forme des données et calcul de la prédiction génomique
Les jeux de données des deux populations étudiées ont été mis en forme grâce au
logiciel R (R Core Team, 2015). Les données aberrantes ont été identifiées par la visualisation
des distributions des données et ont été supprimées.
Le package Synbreed (Wimmer et al., 2012) a permis le regroupement des données
génotypiques, phénotypiques et de pedigree (quand ces dernières étaient disponibles) dans un
même jeu de données, ainsi que de mettre en forme les données génotypiques pour pouvoir
utiliser les fonctions des modèles de prédiction des packages.
Les précisions de prédiction des modèles de prédiction génomique Bayesian LASSO
(least absolute shrinkage on selection operator) et GBLUP (genomic best linear unbiased
prediction) ont été calculées par validation croisée (cross validation) grâce au package
Synbreed et celles des modèles de prédiction BayesA, BayesB et BayesCπ ont aussi été
calculées par cross validation mais avec le package BGLR (de los Campos et Rodriguez,
2015).
La cross-validation (validation croisée) est un outil de statistique qui permet de
mesurer la performance prédictive d’un modèle statistique, ici les modèles cités
précédemment. La validation croisée utilisée dans cette étude est la « k-fold cross-validation »
(figure 7), où le jeu de données est divisé en k échantillons. Un des k échantillons est utilisé
comme un ensemble de validation et les (k-1) échantillons sont utilisés comme ensemble
d’entraînement. Le modèle est construit avec l’ensemble d’entraînement, puis la capacité de
prédiction du modèle est testée sur l’ensemble de validation. Cette opération est répétée k fois
jusqu’à ce que tous les k échantillons aient été utilisés exactement une fois comme ensemble
de validation.
La fonction CrossVal du package Synbreed a permis de prendre en compte la structure en
familles dans la population HiDRAS. Ainsi, en utilisant la valeur « Within popStruc », la
validation croisée est effectuée au sein de chaque famille et avec la valeur « Across
popStruc », les ensembles d’entrainement et de validation contiennent plusieurs familles.
2.6 – Modèles de prédiction génomique utilisés
Dans cette étude, les cinq modèles de prédiction génomique choisis sont des modèles
bayésiens pour pouvoir résoudre le problème « large p, small n », c’est-à-dire que le nombre
de marqueurs dépasse largement le nombre d’individus. Les différences entre ces modèles
11
concernent les hypothèses faites sur les distributions des effets aux marqueurs (figure 4). Le
package Synbreed (Wimmer et al., 2012), comme cité précédemment, a permis l’utilisation
du modèle GBLUP qui se sert d’une matrice d’apparentement génomique. Avec cette matrice,
les écarts aléatoires à la relation attendue en fonction du pedigree, causés par l’effet
d’échantillonnage mendélien peuvent être quantifiés. Ce modèle est définit comme s’en suit :
y= Xβ + Zu + e
où X est la matrice d’incidence des effets fixés qui incluent la moyenne de la population et les
effets des macro-environnements éventuellement; β est le vecteur des effets fixés, Z est la
matrice d’incidence des effets aléatoires et e est la résiduelle. La variable aléatoire u est
définie par :
u~N(0,Uσ²u )
Où σ²u est la variance génétique se rapportant au modèle GBLUP et U est la matrice
d’apparentement génomique.
Le modèle BL (Bayesian LASSO) qui prédit les effets des marqueurs SNP, contrairement au
modèle G-BLUP, est définit par :
y= Xβ +Wm + e
Tous les éléments sauf m et W sont les mêmes que ceux définis dans le modèle G-BLUP. Le
paramètre W est la matrice des marqueurs n x p et le paramètre m est le vecteur des effets des
marqueurs SNP qui est donné par :
m~N(0,Tσ²)
avec T = diag (τ12
,…, τ j2 ,…,τp
2 ) et la hiérarchie du modèle suivant :
τ j2 ~ Exp (λ²), j = 1,…,p
λ² ~ Ga (α, β)
ei ~ N (0,σ²), i= 1,…, n
σ² ~ χ-2
(v,S²)
12
T regroupe les hyperparamètres du modèle. Pour plus d’information, se référer à l’article de
de los Campos et al. (2009).
Quant au package BGLR, il a permis l’utilisation des modèles de prédiction BayesA, BayesB
et BayesCπ. Ces trois modèles sont dérivés d’un même modèle de base :
yi= g(xi) + ei
où y est le phénotype observé d’un individu i (avec i = 1…n), xi est le vecteur 1 x p des
génotypes des marqueurs de l’individu i, g(xi) est une fonction reliant les génotypes aux
phénotypes et ei est la résiduelle. Avec le modèle BayesA, chaque effet de marqueur a sa
propre variance, ce qui permet à chaque effet de marqueur de tendre vers zéro à un degré
différent. Dans le modèle BayesB, il est supposé qu’un marqueur n’a pas du tout d’effet et
donc var(βk) = 0 avec une probabilité π, où βk est l’effet associé au marqueur k . Comme dans
BayesA, chaque effet de marqueur a sa propre variance. Ce modèle est basé sur le fait qu’en
réalité, la variance génétique est présente à peu de loci et qu’elle est absente à beaucoup de
loci.
Le modèle BayesC𝜋 estime π, ce qui n’était pas le cas pour BayesB, avec la loi a priori de la
distribution pour π qui est une loi uniforme entre 0 et 1. De plus, le modèle Bayes Cπ
présuppose une unique loi a priori de distribution des effets pour tous les marqueurs, la
variance des effets des marqueurs est commune.
-0.1
6E-16
0.1
0.2
0.3
0.4
0.5
0.6
AUDPC-prtps AUDPC-aut AUDPC-global
Eff
iica
cité
de
pré
dic
tio
n
BayesB
BayesCπ
BL
GBLUP
BayesA
Figure 8 - Efficacité de prédiction des différents modèles en fonction des caractères étudiés
dans la population HiDRAS.
Données : moyennes ± erreur standard. Le caractère AUDPC-prtps correspond aux AUDPC
calculées à partir des notations de la première moitié de population HiDRAS inoculée au
printemps 2005, le caractère AUDPC-aut correspond aux AUDPC calculées à partir des
notations de la deuxième moitié de la population inoculée à l’automne 2005 et le caractère
AUDPC-global correspond aux AUDPC ajustées pour les effets blocs et saisons sur
l'ensemble de la population HiDRAS
13
III - Résultats
3.1 - Efficacité de prédiction des modèles pour les caractères étudiés dans la population
HiDRAS
Pour la population HiDRAS, la figure 8 présente les efficacités de prédiction des
modèles de prédiction génomique qui ont été obtenues par des validations croisées qui ne
prenaient pas en compte la structure de la population c'est-à-dire les différentes familles
existant au sein de la population. Les modèles de prédiction génomique ont eu des efficacités
de prédictions variant entre 0.14 et 0.59 selon les caractères étudiés.
Pour le caractère AUDPC-prtps, avec les modèles BayesB, BayesCπ, BL et GBLUP,
l’efficacité de prédiction est comprise entre 0.5 et 0.6, et BayesB a la meilleure efficacité de
prédiction (0.59). Le modèle BayesA a la plus mauvaise efficacité de prédiction avec 0.37.
Pour le caractère AUDPC-aut, les efficacités de prédiction des modèles sont
comprises 0.25 et 0.4. BayesA a la moins bonne efficacité de prédiction (0.26) et GBLUP a la
meilleur efficacité avec un score de 0.36. Les efficacités de prédiction sont moins élevées
pour ce caractère que pour le caractère précédent, quasiment deux fois plus faibles pour tous
les modèles excepté pour BayesA.
Pour le caractère AUDPC-global, les quatre meilleurs modèles ont une efficacité de
prédiction comprise entre 0.45 et 0.5; il n’y a donc pas de différences majeures entre ces
modèles. Toutefois, BayesB a la meilleure efficacité de prédiction (0.5). Le modèle BayesA a
la plus mauvaise efficacité de prédiction avec 0.14.
Pour les trois caractères étudiés dans la population HiDRAS, le modèle BayesA est
celui qui a eu la moins bonne efficacité de prédiction. Les quatre autres modèles de prédiction
génomique ont des efficacités de prédiction qui se situent toujours dans la même fourchette de
valeurs, aucun modèle ne se démarque vraiment des autres. Il est tout de même à noter que le
modèle BayesB est celui qui a l’efficacité de prédiction la plus grande pour deux caractères,
AUDPC-prtps et AUDPC-global.
Des validations croisées ont aussi été effectuées en tenant compte de la structure de la
population HiDRAS. En effet, la validation croisée a été faite au sein des familles de la
population et aussi entre les familles. Seuls les modèles GBLUP et BL ont pu être testés en
fonction de la structuration de la population (Figure 9).
0
0.1
0.2
0.3
0.4
0.5
0.6
Random AcrosspopStruc
WithinpopStruc
Eff
ica
cité
de
pré
dic
tio
n
BL
GBLUP
0
0.1
0.2
0.3
0.4
0.5
0.6
Random AcrosspopStruc
WithinpopStruc
Eff
ica
cité
de
pré
dic
tio
n
BL
GBLUP
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
AUDPC2016 AUDPC2012 AUDPC_A2013 AUDPC_P2013
Eff
ica
cité
de
pré
dic
tio
n
BayesB
BayesCπ
BL
GBLUP
BayesA
0
0.1
0.2
0.3
0.4
0.5
0.6
Random AcrosspopStruc
WithinpopStruc
Eff
ica
cité
de
pré
dic
tio
n
BL
GBLUP
C
Figure 9- Efficacité de prédiction des modèles GBLUP et BL en fonction de
la structure de la population pour les trois caractères étudiés dans la population HiDRAS
Données : moyennes ± erreur standard. Le graphique A présente les efficacités de prédiction pour
le caractère AUDPC-prtps, le graphique B, pour le caractère AUDPC-aut et le graphique C, pour le
caractère AUDPC-global. Le paramètre « random » représente la validation croisée faite de manière
aléatoire, le paramètre « Across popStruc » représente celle faites entre les familles de la population
HiDRAS et le paramètre « Within popStruc » représente la validation croisée faites au sein des
familles.
Figure 10 - Efficacité de prédiction des différents modèles en fonction des caractères étudiés dans
la core collection
Données : moyennes ± erreur standard. Le caractère AUDPC2016 correspond aux AUDPC
calculées à partir des notations du printemps 2016, le caractère AUDPC2012 correspond à celles
calculées à partir des notations du printemps 2012 et les caractères AUDPC_A2013 et
AUDPC_P2013 correspond à celles calculées à partir des notations de l’automne et du printemps
2013 respectivement.
A B
14
La caractéristique « Random » représente la validation croisée effectuée en ne prenant pas en
compte la structuration de la population et a déjà été décrite dans la figure 8. Les modèles
étudiés ici ont une efficacité de prédiction similaire l’un par rapport à l’autre quel que soit le
caractère et le paramètre de structuration de la population. Pour le caractère AUDPC-prtps
(figure 9), la validation croisée au sein des familles indique une aussi bonne efficacité de
prédiction qu'une validation croisée faite au hasard avec un score de 0.55 environ, tandis
qu'une validation croisée entre les familles a une plus faible efficacité de prédiction avec un
score de 0.48 environ.
Pour le caractère AUDPC-aut, l’efficacité de prédiction des trois types de validation
croisée suit la même tendance que pour le caractère AUDPC-prtps, c’est-à-dire que le type de
la validation croisée « Within popStruc » a environ la même efficacité de prédiction que type
de validation croisée aléatoire avec un score d’environ 0.35 , et que le type de validation
croisée « Across popStruc » a une moins bonne efficacité de prédiction que les deux autre
paramètres avec un score de 0.2 environ. On retrouve également la même tendance pour le
caractère AUDPC-global.
En général, pour les trois caractères, la validation croisée entre les familles donne une
moins bonne efficacité de prédiction que les validations croisées au sein des familles ou au
hasard. La structuration de la population a donc une influence sur l’efficacité de prédiction
des modèles GBLUP et BL.
3.2 - Efficacité de prédiction des modèles pour les caractères étudiés sur la core
collection
Pour la core collection, la figure 10 présente les efficacités de prédiction des modèles
obtenues par validation croisée pour les différents caractères étudiés. Le modèle de prédiction
BL a une très faible efficacité de prédiction pour les quatre caractères. Lors de la phase de
calcul de la validation croisée pour le modèle BL, plusieurs messages d’erreurs se sont
affichés et ces erreurs ont pu fausser les résultats concernant l’efficacité de prédiction. Aussi,
le modèle BL ne sera pas pris en compte dans l’analyse.
0
0.1
0.2
0.3
0.4
0.5
0.6
BL GBLUP BayesB BayesA BayesCπ
Eff
ica
cité
de
pré
dic
tio
n
AUDPC2016_CC
AUDPC_prtps_HiDRAS
Figure 11 - Comparaison de l'efficacité de prédiction des modèles selon l'AUDPC_printemps
des deux populations
Données : moyennes ± erreur standard
15
Pour le caractère AUDPC 2016, les efficacités de prédiction des quatre modèles
restants se situent toutes aux alentours de 0.3. Les modèles BayesA et BayesB ont la meilleure
efficacité de prédiction avec un score de 0.3 et les modèles BayesCπ et GBLUP ont une
efficacité de prédiction de 0.29. Pour le caractère AUDPC 2012, le modèle BayesB se
démarque des autres en ayant la meilleure efficacité de prédiction avec un score de 0.3. Les
autres modèles ont tous une efficacité de prédiction de 0.26
Pour le caractère AUDPC_A 2013, le modèle GBLUP a la meilleure efficacité de
prédiction avec un score de 0.27. Le modèle BayesB a la deuxième meilleure efficacité de
prédiction avec un score de 0.23 et les deux modèles restants ne sont pas loin avec une
efficacité de prédiction de 0.22 pour BayesA et 0.21 pour BayesC𝜋.
Le caractère AUDPC_P 2013 a montré les plus mauvaises efficacités de prédiction
quel que soit le modèle. Ces efficacités ne dépassent pas 0.1. Le modèle ayant la meilleure
efficacité de prédiction est BayesA avec un score de 0.08. Il faut noter que les plants ont été
testés au printemps 2013 avec un mélange de souches de V.inaequalis alors que les autres
tests étaient réalisés avec une seule souche.
3.3 - Comparaison de l’efficacité de prédiction des différents modèles de prédiction selon
les deux populations analysées
Pour comparer les deux populations entre elles, les caractères d’AUDPC de printemps
et d’automne des populations ont été comparés entre eux. Pour les caractère d’AUDPC
printemps de la core collection, celui ayant eu les meilleures efficacités de prédiction a été
choisi, c’est-à-dire le caractère AUDPC 2016.
Pour les caractères AUDPC printemps des deux populations (figure 11), les modèles
de prédiction génomique ont une meilleure efficacité de prédiction pour la population
HiDRAS que pour la core collection. En effet, pour les modèles GBLUP, BayesB et
BayesCπ, cette efficacité est quasiment deux fois plus grande pour la population HiDRAS
avec des scores proches de 0.55, que chez la population core collection qui présente des
scores d’efficacité de prédiction ne dépassant pas 0.3. Le modèle BayesA a aussi une
meilleure efficacité de prédiction pour la population HiDRAS alors que celle-ci est la moins
bonne par rapport aux efficacités des autres modèles utilisés. Pour le modèle BL, une
comparaison entre les deux populations n’est pas possible car comme expliqué
précédemment, le calcul de la validation croisée effectuée pour le modèle BL a affiché des
messages d’erreurs et donc son résultat est non analysable.
0
0.1
0.2
0.3
0.4
0.5
0.6
BL GBLUP BayesB BayesA BayesCπ
Eff
ica
cité
de
pré
dic
tio
n
AUDPC_A2013 _CC
AUDPC_aut_HiDRAS
Figure 12 - Comparaison de l'efficacité de prédiction des modèles selon l'AUDPC_automne
des deux populations
Données : moyennes ± erreur standard
16
Pour les caractères d’AUDPC automne des deux populations (figure 12), encore une
fois, tous les modèles ont une meilleure efficacité de prédiction pour la population HiDRAS
que pour la core collection, mais cette différence est moins grande. En effet, pour la
population HiDRAS, les modèles ont une efficacité de prédiction proche de 0.35, alors que
pour la core collection, cette efficacité des modèles pris en compte est proche de 0.25. Il est à
noter que le caractère AUDPC-aut de la population HiDRAS est le caractère pour lequel
l'efficacité de prédiction est la plus faible.
IV – Discussion
Pour les deux populations de pommiers étudiées, les modèles qui ont eu les meilleures
efficacités de prédiction se trouvaient dans la même gamme de valeurs, ils n’étaient pas
séparés par plus de 0.05 pour chacun des caractères étudiés. Seul le modèle BayesA a eu une
efficacité de prédiction beaucoup plus basse que les autres modèles pour les caractères étudiés
dans la population HidRAS. Le modèle BayesB a eu souvent la meilleure efficacité de
prédiction quelque soit le caractère et quelle que soit la population. Clark et al. (2011) ont
conclu que le modèle BayesB était plus précis que le modèle GBLUP pour prédire les valeurs
de sélection et qu’il était le plus robuste face aux changements du modèle dépendant de la
variation génétique. Cette conclusion est similaire à celles des études de Meuwissen et al.
(2001) et Habier et al. (2007). En général le modèle BayesB a une meilleure performance que
le modèle BayesA car il est une amélioration de ce dernier modèle. En effet, le modèle
BayesB présuppose que certains marqueurs ont un effet nul, avec une probabilité π, ce qui est
plus proche de la réalité. Le modèle BayesCπ est une variante de BayesB où π est estimé et
non fixé par l’utilisateur comme dans BayesB. Le modèle BayesCπ est ainsi préféré dans les
études de sélection génomique au modèle BayesB. Ici, le modèle BayesCπ a une moins bonne
efficacité de prédiction que BayesB, cela pourrait impliquer que le package BGLR utilisé
pour tester les modèles n’a pas bien estimé π.
Les modèles BayesB, BayesCπ, GBLUP et BL ont eu une meilleure efficacité de
prédiction pour les caractères de résistance dans la population HiDRAS que dans la core
collection. Cette efficacité est comprise entre 0.31 et 0.59 et elle peut être expliquée par
plusieurs caractéristiques de la population HiDRAS.
17
La population HiDRAS est composée de plusieurs familles qui sont apparentés entre
elles et dont on connaît le pedigree. Cette population a été utilisée comme populations
d’entraînement et candidate, et si ces deux populations sont liées entre elles par
apparentement, l’efficacité de prédiction des modèles est plus haute (Heffner, Sorrells et
Jannink, 2009). Il est tout de même à noter que la validation croisée ayant été effectuée entre
les familles donnait des résultats d’efficacité plus faible par rapport à la validation croisée
effectuée à l’intérieur des familles. Ceci indique que si on prend en compte la structure d’une
population dans la GS, plus les individus seront proches entre eux génétiquement, plus
l’efficacité de prédiction sera meilleure. De plus, dans ces familles, le déséquilibre de liaison
entre les QTLs d’intérêt et les marqueurs est fort, ce qui augmente l’efficacité de prédiction
des modèles bayésiens comme l’ont démontré les résultats de simulation de Habier et al.
(2007). L’héritabilité au sens large individuelle avait une étendue entre 0.32 à 0.65, ce qui
révélait une répétabilité correcte entre les copies d’un même génotype. Les héritabilités de
moyennes génotypiques étaient fortes avec une étendue de 0.59 à 0.85, ce qui traduisait une
bonne estimation des valeurs génotypiques moyenne par les valeurs phénotypiques (Soufflet-
Freslon, 2008). L’héritabilité a une influence positive sur l’efficacité de prédiction Il est aussi
à noter que le nombre d’individus de la population est de 705, ce qui va augmenter l’efficacité
de prédiction des modèles. L’utilisation dans la sélection génomique d’une population de
pommiers qui ont un lien de parenté entre eux va aboutir à de meilleurs résultats.
Pour la core collection, l’efficacité de prédiction des modèles BayesB, BayesCπ,
BayesA, et GBLUP est plus faible que pour la population HiDRAS, Ceci peut s’expliquer par
la structure de la population et par son nombre d’individus qui se situe aux alentours de 230.
En effet, les individus de la core collection ne sont pas apparentés entre eux et les individus
n’ont pas de données de pedigree. De plus, dans cette population, l'absence d'apparentement
entre les individus signifie qu'il y a eu beaucoup de recombinaisons dans les générations
successives depuis les ancêtres communs des individus. En conséquence, le déséquilibre de
liaison entre les QTLs d’intérêts et les marqueurs génotypés est probablement faible, ce qui
entraîne un résultat d’efficacité de prédiction plus faible. Les héritabilités des caractères de
résistance étaient comprises entre 0.45 et 0.86 (Leforestier, 2015). Le génotypage des
individus de la core collection s’est effectué avec 275 223 marqueurs et l’efficacité maximale
de prédiction atteinte est de 0.3. Pour la population HiDRAS, le génotypage des individus
s’était effectuée avec seulement 7549 marqueurs. Pour la population HiDRAS, la densité de
marqueurs pouvait être plus faible car la population candidate comportait des individus
18
fortement apparentés à certains individus de la population d’entraînement (pleins-frères,
demi-frères) et dans ce cas là, la densité des marqueurs peut être réduite sans que cela impacte
négativement l’efficacité de prédiction (Jannink, Lorenz et Iwata, 2010). Comme il n’y a pas
de lien entre la population candidate et d’entrainement dans la core collection, l’efficacité de
prédiction est faible même avec un grand nombre de marqueurs utilisés. Pour augmenter
l’efficacité de prédiction des modèles testés sur la core collection, il faudrait augmenter
encore plus le nombre de marqueurs, ou changer de type de marqueurs. En effet Solberg et al.
(2008) a conclu que pour obtenir une efficacité de prédiction similaire, il fallait 2 à 3 fois plus
de marqueurs SNP que de marqueurs SSR. Toutefois les marqueurs SNP sont plus facilement
automatisables et ils peuvent être utilisés à très haut débit.
L’efficacité de la sélection génomique est influencée par divers facteurs parmi lesquels
la densité des marqueurs, la taille et la structure de la population et l’environnement (Kumar
et al., 2011b). Pour la population HiDRAS et le caractère AUDPC-aut, les modèles de
prédiction génomique ont eu une plus faible efficacité de prédiction que pour les autres
caractères étudiés. Cette plus faible efficacité est peut-être due aux conditions
environnementales (comme la saison) dans lesquelles le test de résistance à la tavelure a été
effectué, même s'il a été réalisé en serre. Des études effectuées sur des descendances de
pommier pollinisées librement ont montré que les effets des interaction génotype x
environnement (G x E) pourrait avoir un impact significatif pour certains caractères de
résistance aux maladies (Kumar et al., 2011a). Pour la core collection et les différents
caractères d’AUDPC, les modèles ont eu différentes efficacités de prédiction. Le nombre
d’individus phénotypés pour chaque caractère est différent et les individus ne sont pas les
mêmes bien qu’une majorité des individus soit commune entre les quatre caractères. Les
souches de tavelure du pommier utilisées pour les inoculations sont également différentes
selon les caractères. Par exemple, pour le caractère AUDPC_P2013, tous les modèles de
prédiction ont eu une efficacité de prédiction très basse comparée aux autres caractères. Ceci
peut être expliqué par le mélange de souches de tavelure utilisé pour l’inoculation qui pouvait
contourner plusieurs gènes de résistance.
Plusieurs études portant sur la sélection génomique pour des caractères de résistance
aux maladies chez les plantes ont été publiés. Pour les caractères de résistance à la rouille du
blé, Daetwyler et al. (2014) ont étudié la prédiction génomique des modèles BayesR et
GBLUP. En général, chez le blé, l’efficacité de prédiction génomique va de 0.3 à 0.8 avec
relativement peu de marqueurs, car la nature autogame du blé mène à un fort déséquilibre de
liaison. Dans cette étude, 247 accessions de blés provenant de la collection Watkins ont été
19
phénotypés et génotypés, 5 568 marqueurs SNP ont été retenus. Pour les caractères de
résistance, les efficacités de prédiction allaient de 0.27 à 0.48 pour le modèle GBLUP et de
0.3 à 0.38 pour le modèle BayesR. Le niveau d’efficacité de prédiction des caractères est en
concordance avec le niveau d’héritabilité génomique. Pour les trois caractères de résistance
étudiés, très peu de marqueurs à grand effets ont été identifiés, suggérant qu’un grand nombre
de locus a contribué à la variance génétique des caractères. Les auteurs ont conclu que la
sélection génomique avait une utilité potentielle pour la sélection de variétés de blé ayant des
résistances à la rouille plus durables. Une autre étude d’évaluation de la sélection génomique
chez le blé pour la résistance à la fusariose a été conduite par Rutkoski et al. (2012). Dans
cette étude, quatre modèles de prédiction ont été utilisés : RR (ridge regression) BLUP, BL,
RF (random forest) et RKHS (reproducing kernel Hilbert spaces). Dans leur étude les modèles
RF et RKHS ont eu une meilleure efficacité de prédiction que les autres modèles. Selon les
auteurs, cette meilleure performance pouvait être expliquée par le design des pépinières dans
lesquels les plants de blés se sont développés ou par l’architecture génétique des caractères
étudiés. Ils ont aussi soulignés que les modèles RF et RKHS sont capables de capturer les
effets non additifs (ici l’épistasie) et qu’ainsi ils peuvent être plus précis que les autres
modèles pour les caractères où les effets non aditifs sont importants. Ils ont conclus que la
sélection génomique pouvait bien réussir pour des cas concernant la résistance, comme la
résistance à la fusariose dans les ressources génétiques de blés américains, mais qu’il y avait
encore des points à approfondir.
Ces deux études vont dans le même sens concernant l’impact de la sélection
génomique pour la sélection de caractères de résistance. Pour la première étude, les efficacités
de prédictions génomiques sont environ dans la même gamme de valeurs que les efficacités
de prédiction obtenues dans la population HiDRAS, ce qui confirme que la sélection
génomique serait une contribution positive et majeure pour la sélection de pommiers
présentant des résistances à la tavelure du pommier.
V – Conclusion et perspectives
L'étude que j'ai réalisée montre que la sélection génomique peut contribuer à rendre
plus efficace la sélection de variétés de pommiers pour des composantes de résistance à la
tavelure.
20
Pour la suite de cette étude, les facteurs influençant la précision de prédiction de la
sélection génomique pourront être examinés plus attentivement. En effet, la taille de la
population étudiée ou la densité des marqueurs pourront être augmentées pour accroitre la
précision de prédiction de la sélection génomique. L’impact de l’interaction génotype x
environnement (G x E) sur l’efficacité de prédiction devra être étudié plus en détails car
l’efficacité de prédiction des modèles a été influencée par les saisons. Pour la core collection,
la taille de la population et la densité des marqueurs pourront être augmentées pour étudier
leur impact sur l’efficacité de population pour un groupe d’individus qui n’ont pas de lien de
parenté entre eux. Cependant, il faudra prendre en compte le type de technique de génotypage
utilisé car le coût de génotypage pour un individu varie selon la technique. A partir de la
population HiDRAS, un programme de sélection pour résistance à la tavelure du pommier
pourra être conduit pour la sélection d’individus issus des mêmes familles ou issus de
croisements impliquant les mêmes parents. Toutefois, il faudra prendre en compte le coût du
programme de sélection qui est très élevé en général.
Bibliographie
Bernardo, R. and Yu, J. (2007) Prospects for Genomewide Selection for Quantitative Traits
in Maize. Crop Science, 47, 1082.
Bianco, L., Cestaro, A., Linsmith, G., et al. (2016) Development and validation of the
Axiom ® Apple480K SNP genotyping array. The Plant Journal, 86, 62–74.
Bowen, J.K., Mesarich, C.H., Bus, V.G.M., Beresford, R.M., Plummer, K.M. and
Templeton, M.D. (2011) Venturia inaequalis: the causal agent of apple scab: Venturia
inaequalis. Molecular Plant Pathology, 12, 105–122.
Brun, L., Didelot, F. and Parisi, L. (2007) Stratégies de protection innovantes contre la
tavelure du pommier: conception, évaluation et intégration en verger. Innovations
agronomiques, 1, 33–45.
Bus, V.G.M., Rikkerink, E.H.A., Caffier, V., Durel, C.-E. and Plummer, K.M. (2011)
Revision of the Nomenclature of the Differential Host-Pathogen Interactions of
Venturia inaequalis and Malus. Annual Review of Phytopathology, 49, 391–413.
de los Campos, G., Naya, H., Gianola, D., Crossa, J., Legarra, A., Manfredi, E., Weigel,
K. and Cotes, J.M. (2009) Predicting Quantitative Traits With Regression Models for
Dense Molecular Markers and Pedigree. Genetics, 182, 375–385.
de los Campos, G., Hickey, J.M., Pong-Wong, R., Daetwyler, H.D. and Calus, M.P.L. (2013) Whole-Genome Regression and Prediction Methods Applied to Plant and
Animal Breeding. Genetics, 193, 327–345.
de los Campos, G., Perez Rodriguez, P., (2015). BGLR: Bayesian Generalized Linear
Regression. R package version 1.0.4. https://CRAN.R-project.org/package=BGLR
Clark, S.A., Hickey, J.M. and Van der Werf, J.H. (2011) Different models of genetic
variation and their effect on genomic evaluation. Genet Sel Evol, 43, 10–1186.
Cornille, A., Giraud, T., Smulders, M.J.M., Roldán-Ruiz, I. and Gladieux, P. (2014) The
domestication and evolutionary ecology of apples. Trends in Genetics, 30, 57–65.
Crossa, J., Campos, G. d. l., Perez, P., et al. (2010) Prediction of Genetic Values of
Quantitative Traits in Plant Breeding Using Pedigree and Molecular Markers.
Genetics, 186, 713–724.
Desta, Z.A. and Ortiz, R. (2014) Genomic selection: genome-wide prediction in plant
improvement. Trends in Plant Science, 19, 592–601.
Daetwyler, H.D., Bansal, U.K., Bariana, H.S., Hayden, M.J. and Hayes, B.J. (2014)
Genomic prediction for rust resistance in diverse wheat landraces. Theoretical and
Applied Genetics, 127, 1795–1803.
FranceAgrimer, la pomme en 2014-2015. Available at :
http://www.franceagrimer.fr/content/download/40897/381190/file/BIL-POMME-
camp%202014-15.pdf
Gianfranceschi, L. and Soglio, V. (2003) The European project HiDRAS: innovative
multidisciplinary approaches to breeding high quality disease resistant apples. In XI
Eucarpia Symposium on Fruit Breeding and Genetics 663. pp. 327–330. Available at:
http://www.actahort.org/books/663/663_55.htm [Accessed June 14, 2016].
Goddard, M.E. and Hayes, B.J. (2007) Genomic selection. Journal of Animal breeding and
Genetics, 124, 323–330.
Habier, D., Fernando, R.L. and Dekkers, J.C.M. (2007) The impact of genetic relationship
information on genome-assisted breeding values. Genetics 2007, 177:2389-2397.
Harris BL, Johnson DL, Spelman RL. (2008) Genomic selection in New Zealand and the
implications for national genetic evaluation. Proceedings of the Interbull Meeting, 16–19 June
2008, Niagara Falls, Canada.
Hayes, B.J., Bowman, P.J., Chamberlain, A.J. and Goddard, M.E. (2009) Invited review:
Genomic selection in dairy cattle: Progress and challenges. Journal of Dairy Science,
92, 433–443.
Hayes, B.J., Goddard, M.E. and others (2001) Prediction of total genetic value using
genome-wide dense marker maps. Genetics, 157, 1819–1829.
Heffner, E.L., Sorrells, M.E. and Jannink, J.-L. (2009) Genomic Selection for Crop
Improvement. Crop Science, 49, 1.
Isik F, Whetten R, Zapata-Valenzuela J, Ogut F, McKeand S. (2011) Genomic selection
in loblolly pine – from lab to field. BMC Proceedings 5 (Suppl. 7): I8.
Jannink, J.-L., Lorenz, A.J. and Iwata, H. (2010) Genomic selection in plant breeding:
from theory to practice. Briefings in Functional Genomics, 9, 166–177.
Jha, G., Thakur, K. and Thakur, P. (2009) The Venturia Apple Pathosystem: Pathogenicity
Mechanisms and Plant Defense Responses. Journal of Biomedicine and
Biotechnology, 2009, 1–10.
Kumar, S., Bink, M.C.A.M., Volz, R.K., Bus, V.G.M. and Chagné, D. (2012) Towards
genomic selection in apple (Malus × domestica Borkh.) breeding programmes:
Prospects, challenges and strategies. Tree Genetics & Genomes, 8, 1–14.
Kumar, S., Chagné, D., Bink, M.C.A.M., Volz, R.K., Whitworth, C. and Carlisle, C. (2012) Genomic Selection for Fruit Quality Traits in Apple (Malus×domestica Borkh.)
T. Zhang, ed. PLoS ONE, 7, e36674.
Kumar, S., Volz, R. and Weskett, R. (2011) Genetic architecture of fruit quality traits in
Malus x domestica (Borkh.) compared between own-rooted seedlings and vegetative
propagules on “M. 9” rootstock. Tree Genetics & Genomes, 7, 1079–1088.
Lassois, L., Denancé, C., Ravon, E., et al. (2016) Genetic Diversity, Population Structure,
Parentage Analysis, and Construction of Core Collections in the French Apple
Germplasm Based on SSR Markers. Plant Molecular Biology Reporter. Available at:
http://link.springer.com/10.1007/s11105-015-0966-7 [Accessed June 14, 2016].
Leforestier, D., Localisation de régions du génome du pommier contrôlant la variation de
caractères de qualité du fruit et de résistance aux maladies : signatures de sélection et
génétique d’association. Thèse de doctorat, Angers, 2015, n°1478
Legarra, A., Robert-Granie, C., Manfredi, E. and Elsen, J.-M. (2008) Performance of
Genomic Selection in Mice. Genetics, 180, 611–618.
Meuwissen, T. H. E., Hayes, B.J., Goddard, M.E. (2001) Prediction of total genetic value
using genome-wide dense marker maps. Genetics, 157, 1819–1829.
Muranty, H., Troggio, M., Sadok, I.B., et al. (2015) Accuracy and responses of genomic
selection on key traits in apple breeding. Horticulture Research, 2, 15060.
Myles, S. (2013) Improving fruit and wine: what does genomics have to offer? Trends in
Genetics, 29, 190–196.
Nakaya, A. and Isobe, S.N. (2012) Will genomic selection be a practical method for plant
breeding? Annals of Botany, 110, 1303–1316.
R: A language and environment for statistical computing. R Foundation for Statistical
Computing, Vienna, Austria. URL: https://www.R-project.org/.
Rutkoski, J., Benson, J., Jia, Y., Brown-Guedira, G., Jannink, J.-L. and Sorrells, M. (2012) Evaluation of Genomic Prediction Methods for Fusarium Head Blight
Resistance in Wheat. The Plant Genome Journal, 5, 51.
Solberg, T.R., Sonesson, A.K., Woolliams, J.A. and Meuwissen, T.H.E. (2008) Genomic
selection using different marker types and densities. Journal of Animal Science, 86,
2447–2454.
Soufflet-Freslon, V., Résistance du pommier à la tavelure (Venturia inaequalis) : Recherche
de nouveaux loci et construction de génotypes « prototypes » en vue d’une gestion
durable de la résistance. Thèse de doctorat, Angers, 2008, n°910
VanRaden, P.M., Van Tassell, C.P., Wiggans, G.R., Sonstegard, T.S., Schnabel, R.D.,
Taylor, J.F. and Schenkel, F.S. (2009) Invited Review: Reliability of genomic
predictions for North American Holstein bulls. Journal of Dairy Science, 92, 16–24.
Velasco, R., Zharkikh, A., Affourtit, J., et al. (2010) The genome of the domesticated apple
(Malus × domestica Borkh.). Nature Genetics, 42, 833–839.
Wimmer, V., Albrecht, T., Auinger, H.J., and Schoen C.C. (2012) synbreed: a framework
for the analysis of genomic prediction data using R. Bioinformatics, 28: 2086-2087
Wong, C.K. and Bernardo, R. (2008) Genomewide selection in oil palm: increasing
selection gain per unit time and cost with small populations. Theoretical and Applied
Genetics, 116, 815–824.
Webographie :
www.fruitbreedomics.com [consulté le 09/06/2016]
Plan ecophyto II: http://agriculture.gouv.fr/sites/minagri/files/151022_ecophyto.pdf [consulté
le 20/05/2016]
Goascoz Anaïs, 2016. Evaluation de la sélection génomique pour la résistance à la
tavelure du pommier
Equipe ResPom, Institut de recherche en horticulture et semences, 42 rue Georges Morel - BP
60057, 49071 BEAUCOUZE CEDEX, France.
RESUME
La sélection génomique est une forme de sélection assistée par marqueurs où tous les
marqueurs couvrant tout le génome sont utilisés pour que tous les QTL soient en déséquilibre
de liaison avec au moins un marqueur et que potentiellement toute la variance génétique soit
expliquée. La sélection génomique estime des GEBV grâce à des modèles de prédiction
génomique. Durant ce stage, la sélection génomique a été évaluée pour des caractères de
résistance à la tavelure du pommier. Deux populations de pommiers, la population HiDRAS
composée de 13 familles de pleins-frères liées par le pedigree, et la core collection, étaient
phénotypées et génotypées. Les modèles de prédiction génomique BayesB, BayesA,
BayesCπ, BL et GBLUP ont été utilisés pour estimer l’efficacité de prédiction dans chacun
des deux populations. L’efficacité de prédiction des modèles pour les caractères de la
population HiDRAS a été élevée, entre 0.14 et 0.59, contrairement ce qui a été observé dans
la core collection où l'efficacité de prédiction variait entre 0.03 et 0.3. L’efficacité de
prédiction était influencée par la taille et la structure des populations, et le déséquilibre de
liaison entre les marqueurs et les QTL d’intérêt. En conclusion, la sélection génomique sera
une contribution positive dans la sélection de variétés de pommier présentant des caractères
de résistance à la tavelure.
Mots clés : Malus x domestica, Venturia inaequalis, sélection génomique
Goascoz Anaïs, 2016. Evaluation of genomic selection for apple scab resistance
Equipe ResPom, Institut de recherche en horticulture et semences, 42 rue Georges Morel - BP
60057, 49071 BEAUCOUZE CEDEX, France.
ABSRACT
Genomic selection is a form of marker-assisted selection in which genetic markers covering
the whole genome are used so that all QTL are in linkage disequilibrium with at least one
marker and potentially all the genetic variance can be explained . Genomic selection estimates
GEBV thanks to genomic prediction models. During this internship, genomic selection was
evaluated for apple scab resistance traits. Two apple populations, the HiDRAS population
comprising 13 pedigree-related full-sib families, and a core collection, were phenotyped and
genotyped. The BayesB, BayesA, BayesCπ, BL and GBLUP genomic prediction models were
used to estimate the accuracy of prediction of resistance traits in the two populations. Model
prediction efficiency for HiDRAS population traits were high, between 0.14 and 0.59, unlike
prediction efficiency in the core collection which varied between 0.03 and 0.3. Prediction
accuracy was influenced by population size and structure, and linkage disequilibrium between
markers and QTL of interest. In conclusion, genomic selection will be a positive input in
selection of apple varieties showing apple scab traits.
Key words : Malus x domestica, Venturia inaequalis, genomic selection