Download pdf - Sélection génomique pour les résistances aux maladies chez le

Master 2ème

année cohabilité : Université

d’Angers, de Bretagne Occidentale de Nantes,

de Poitiers, de Rennes 1, de Tours et

Agrocampus Ouest

Institut de Recherche en Horticulture et

Semences

Centre INRA d’Angers-Nantes

RAPPORT de STAGE EFFECTUE

par

Anaïs GOASCOZ

à

IRHS Centre INRA d’Angers-Nantes

en vue de l'obtention du

Master 2ème Année STS

Spécialité : Biologie Végétale Intégrative : Gène, Plante, Agrosystème

(BioVIGPA)

(Responsable de stage : Hélène

Muranty, Chercheur)

Titre du Sujet :

Evaluation de la sélection génomique pour la résistance à la tavelure du pommier

Soutenance devant le jury d'examen le 23 Juin 2016

Master 2ème

année cohabilité : Université

d’Angers, de Bretagne Occidentale de Nantes,

de Poitiers, de Rennes 1, de Tours et

Agrocampus Ouest

Institut de Recherche en Horticulture et

Semences


RAPPORT de STAGE EFFECTUE

par

Anaïs GOASCOZ

à

IRHS


en vue de l'obtention du

Master 2ème Année STS

Spécialité : Biologie Végétale Intégrative : Gène, Plante, Agrosystème

(BioVIGPA)

(Responsable de stage : Hélène

Muranty, Chercheur)

Titre du Sujet :

Evaluation de la sélection génomique pour la résistance à la tavelure du pommier

Soutenance devant le jury d'examen le 23 Juin 2016

Remerciements

Tout d’abord, j’aimerais remercier Monsieur Jean-Pierre Renou pour m’avoir

accueilli au sein de l’IRHS.

Je remercie également Charles-Eric Durel pour m’avoir accueilli au sein de son

équipe et je remercie aussi tous les membres de l’équipe.

Je remercie Hélène Muranty pour m’avoir aidé, guidé et conseillé durant tout ce

stage.

Je remercie également le GIS fruit pour avoir financé mon stage.

Sommaire

I – Introduction………………………………………………………....……………........1

1.1 - La pomme (Malus x domestica)…………………………………………………..…. 1

1.2 - La tavelure du pommier (Venturia inaequalis)………………………………………..1

1.3 - La sélection génomique…………………………………………….…..……………...3

1.4 - Objectif du stage ……………………………………………………………………....7

II - Matériels et méthodes………………………………………………………………….8

2.1 - Matériel végétal………………………………………………………………………...8

2.2 - Phénotypage de la population HiDRAS ……………………………………………….8

2.3 - Phénotypage de la core collection……………………………….…………………….9

2.4 - Génotypage des deux populations……………………………………..……………….9

2.5 -Mise en forme des données et calcul de la prédiction génomique……………………..10

2.6 – Modèles de prédiction génomique utilisés……………………………………………10

III – Résultats……………………………………………………………………………….13

3.1 - Efficacité de prédiction des modèles pour les caractères étudiés dans la population

HiDRAS……………………………………………………………………………………...13

3.2 - Efficacité de prédiction des modèles pour les caractères étudiés sur la core

collection……………………………………………………………………………………..14

3.3 - Comparaison de l’efficacité de prédiction des différents modèles de prédiction selon les

deux populations analysées……………………………………………………………….….15

IV – Discussion……………………………………………………………………………....16

V – Conclusion et perspectives………………………………………………………..…….19

Bibliographie

Liste des abréviations

AUDPC : Area Under Disease Progress Curve (aire sous la courbe de la progression de la

maladie)

BL : Bayesian LASSO

EBV : estimated breeding values (valeurs en descendance estimées)

GEBV : genomic estimated breeding values (valeurs génomique en descendance estimées)

GBLUP : genomic best linear unbiased prediction (meilleure prédiction génomique linéaire

non biaisée)

GS : genomic selection (sélection génomique)

HiDRAS : High-quality Disease Resistant Apples for a Sustainable Agriculture

INRA : Institut National de la Recherche Agronomique

LASSO : least absolute shrinkage and selection operator

QTL : quantitative trait loci

SAM : sélection assistée par marqueurs

SNP : single nucleotid polymorphism

SSR : simple sequence repeats

RF : random forest

RKHS : reproducing kernel Hilbert spaces

1

I - Introduction

1.1 - La pomme (Malus x domestica)

Le pommier domestique (Malus x domestica Borkh, famille des Rosacées, tribu des

Pyreae) est l’un des arbres fruitiers cultivés le plus répandu des régions tempérées du monde

et avec l’une des plus grosses productions des régions tempérées dans le monde (Velasco et

al., 2010). Par exemple, pour l’année 2014, environ 71 millions de tonnes (Mdt) de pommes

ont été produites dans le monde avec pour principal producteur la Chine qui compte à lui seul

53% (37,8 Mdt) de la production mondiale. A l’échelle européenne, les principaux

producteurs de pommes sont la Pologne (3,75 Mdt), l’Italie (2,46 Mdt) et la France (1,53 Mdt)

(France Agrimer). La pomme peut être consommée de diverses manières : crue ou

transformée sous forme de compote, de jus de pomme ou de cidre.

Malgré la grande diversité des cultivars de pommiers disponibles, la production

mondiale de pomme est basée aujourd’hui sur la culture de deux douzaines de cultivars qui

sont propagés de manière clonale par greffage sur moins d’une douzaine de porte-greffes

différents. Ce peu de diversité et ce non renouvellement de la génétique des pommiers rendent

ceux-ci vulnérables aux pathogènes qui eux évoluent constamment. Cela nécessite alors un

très grand apport d’intrants chimiques pour éviter une infection par les pathogènes,

notamment le champignon Venturia inaequalis responsable de la tavelure du pommier

(Myles, 2013 ; Cornille et al., 2014).

1.2 - La tavelure du pommier (Venturia inaequalis)

La tavelure du pommier, une maladie fongique causée par le champignon Venturia

inaequalis est l’une des maladies du pommier les plus sérieuses dans le monde et a été

signalée dans tous les pays producteurs. Cette maladie est la plus sévère dans les pays

tempérés où des climats humides et froids au début du printemps facilitent l’entrée du

pathogène dans la plante.

Figure 1 – Cycle de vie de Venturia inaequalis (Bowen et al., 2011)

2

V.inaequalis présente deux phases de développement (figure 1) : une première phase

saprophytique où le champignon développe des ascospores (spores sexuées) dans des

pseudothèces durant l’hiver sur les feuilles tombées au sol. Au printemps, ces ascospores sont

libérées par la pluie. Cette libération coïncide avec le bourgeonnement des feuilles et des

fleurs de la plante hôte. S’ensuit une seconde phase parasitaire où les ascospores pénètrent

l’hôte au travers de la cuticule pour développer des stromata et des conidies (spores asexuées).

Ce sont ces dernières qui causent les lésions brunes poudreuses caractéristiques de la tavelure.

Les conidies sont ensuite disséminées par la pluie et le vent ce qui permet une infection

secondaire à l’intérieur des vergers durant le développement des fruits (Bowen et al., 2011;

Bus et al., 2011). Les lésions sur les fruits ne sont pas toxiques et ne sont pas impropres à la

consommation, mais leur aspect les rendent impropres à la commercialisation comme

pommes de table. Ces fruits sont alors déclassés et peuvent être utilisés seulement en

transformation (en compote par exemple). La récolte, si elle a lieu, est alors faite à perte car

les coûts de récolte sont plus élevés que les bénéfices de la vente des pommes tavelées. La

tavelure est la maladie du pommier qui entraîne les plus grandes pertes économiques (jusqu’à

70 % de perte dans la production de pommes) (Jha, Thakur et Thakur, 2009)

Pour lutter contre la tavelure du pommier, vingt pulvérisations en moyenne de

fongicides par an sont requises qui viennent s’ajouter aux quinze pulvérisations en moyenne

d’insecticides et d’engrais qui sont nécessaires pour d’autres raisons (Brun, Didelot et Parisi,

2007). Cependant, avec le plan ecophyto II (plan ecophyto II), les intrants chimiques vont être

diminués et limités. Il faut donc développer et favoriser des voies alternatives pour lutter

contre la tavelure du pommier. Un de ces moyens alternatifs est la lutte génétique et le

développement de variétés résistantes. Ces variétés devront avoir des qualités agronomiques

et organoleptiques qu’ont les variétés commerciales sensibles à la tavelure, et aussi présenter

une résistance durable dans le temps car la sélection classique de nouvelles variétés de

pommier est un processus laborieux, long et cher. De plus, le pommier est une espèce pérenne

qui ne produit pas de fruit pendant une phase juvénile qui peut durer de 3 à 7 ans (Myles,

2013) et un verger est planté et exploité durant 15 à 20 ans en moyenne.

Contrairement aux méthodes de sélection classique, la sélection génomique pourrait

réduire le temps nécessaire à la sélection d’individus présentant les caractères économiques

d’intérêt, ici, des caractères de résistance, car elle peut être réalisée sur des jeunes plants.

Figure 2 – Processus de la sélection génomique (Heffner, Sorrells et Jannink, 2009)

3

1.3 - La sélection génomique

1.3.1 - Principe

La sélection génomique (GS) a été présentée pour la première fois dans un article de

Meuwissen et al. en 2001. Celui-ci proposait une alternative à la sélection assistée par

marqueurs (SAM) qui présente des limitations majeures. En effet, la SAM est efficace pour

utiliser des loci/QTL à large effets avec une association connue avec un marqueur, mais pour

les gènes qui ont de petits effets et qui ségrégent, la SAM ne peut les identifier. Les défauts de

la SAM viennent de sa façon de partager sa tâche en deux parties : identifier les QTL en

premier, puis estimer leurs effets (Jannink, Lorenz et Iwata, 2010).

Les principes de la sélection génomique sont que tous les marqueurs couvrant le

génome sont utilisés pour que potentiellement toute la variance génétique soit expliquée par

ces marqueurs et que tous les QTL présents soient au en déséquilibre de liaison (DL) avec au

moins un des marqueurs (Goddard et Hayes, 2007).

En pratique, la sélection génomique est appliquée sur une population d’individus,

appelée la population candidate, dont on connait seulement les données génotypiques grâce

aux calculs des GEBV (genomic estimated breeding values) en utilisant un modèle statistique

de prédiction génomique. Ce modèle a été « entrainé » auparavant sur une population

d’individus qui ont des données génotypiques ainsi que des données phénotypiques et qui est

appelée la population d’entraînement. Cet entrainement va permettre d’estimer les paramètres

du modèle et en particulier d’estimer les effets des marqueurs qui vont être par la suite utilisés

pour calculer les GEBV de la population candidate (figure 2). Par conséquent, la sélection

d’individus qui n’ont pas de données phénotypiques peut être effectuée. (Heffner, Sorrells et

Jannink, 2009).

La limitation majeure de la sélection génomique est le coût financier du génotypage

des individus car le nombre de marqueurs doit être assez grand pour pouvoir capturer toute la

variance génétique. Heureusement ce coût s’est réduit au cours de ces dernières années

(Goddard et Hayes, 2007).

Figure 3 – Classification des modèles de régression. Ces modèles sont catégorisés

comme des modèles de régression paramétrique (A) ou non paramétrique (B) (Desta et Ortiz,

2014)

4

1.3.2 – Les modèles de prédiction génomique

Le modèle standard de génétique quantitative présume que les effets génétiques (ui) et

les effets environnementaux (εi) agissent ensemble pour produire les résultats phénotypiques

(yi) : yi = ui + εi (de los Campos et al., 2009). Avec la sélection génomique, les données

obtenues par les cartes de marqueurs denses couvrant tout le génome ont dû être incorporées

dans les modèles de prédiction génomique qui existaient jusqu’alors. Avec les technologies de

génotypage moderne, le nombre de marqueurs p dépasse largement celui des individus n. Ceci

a mis en lumière un problème appelé « large p, small n », que les modèles devaient résoudre

pour avoir des résultats non biaisés (de los Campos et al., 2013). Plusieurs méthodes ont été

alors proposées pour introduire les données des marqueurs dans les modèles de régression

déjà existant (figure 3). Les modèles peuvent être divisés en deux groupes. Tout d’abord, il y

a le premier groupe de modèles qui régressent les données phénotypiques sur les marqueurs

avec la fonction de régression ui = g(xi, β) où xi est un vecteur de marqueurs covariables et β

est un vecteur de coefficients de régression. Dans le deuxième groupe, il y a les modèles qui

considèrent les valeurs génétiques comme une fonction d’un individu et utilisent l’information

des marqueurs pour construire une structure de (co)variance entre les individus. Le premier

groupe inclut les modèles bayésiens (de los Campos et al., 2009). Dans un cadre bayésien,

l’effet d’un marqueur est représenté par une variable aléatoire qui est distribuée selon une loi

a priori. Ainsi, chaque modèle bayésien adopte une loi a priori de distribution différente pour

la variance des effets des marqueurs (figure 4) (Nakaya et Isobe, 2012). Les différents

modèles de prédiction diffèrent entre eux selon les paramètres inclus dans leur équation.

Chaque modèle de prédiction génomique a ses inconvénients et ses avantages et ils auront des

résultats différents selon la population ou selon les types de caractères d’intérêt pour lesquels

ils sont utilisés.

1.3.3 – La sélection génomique chez l’animal

L’article de Meuwissen et al (2001) démontrait avec des simulations qu’il était

possible d’atteindre pour des valeurs en descendance prédites (predicted breeding values) une

précision de 0.85 avec seulement les marqueurs (la précision est la corrélation entre les vraies

valeurs en descendance et les valeurs en descendance estimées (EBV : estimates breeding

values). Ce résultat de simulation a prouvé que potentiellement la précision des GEBV

Figure 4 – Lois a priori de distribution des effets des marqueurs les plus communes (de los

Campos et al., 2013)

5

pouvait être aussi haute que celle des EBV calculées à partir des tests effectués sur la

descendance qui était habituellement réalisés lors d’un programme de sélection classique chez

les bovins. La première étude empirique de la sélection génomique chez l’animal a été

réalisée par Legarra et al. (2008) chez la souris, mais la sélection génomique a surtout

progressé dans la sélection animale chez les bovins laitiers. Par exemple, quatre programmes

de sélection chez les bovins ont été effectués dans différents endroits du monde pour évaluer

la justesse des GEBV à partir de données empiriques. Les quatre programmes de sélection se

situant en Nouvelle-Zélande (Harris et al., 2008), en Australie (Hayes et al., 2009), aux Etats-

Unis (VanRanden et al., 2009) et aux Pays-Bas (Hayes et al., 2009) ont donné des résultats

similaires. Pour chaque programme, il a été montré que les GEBV avaient une meilleure

fiabilité que la prédiction des EBV utilisée dans la sélection conventionnelle. La fiabilité des

GEBV augmentait même avec un plus grand nombre d’individus testés dans une population

candidate de bovins.

Dans les programmes de sélection conventionnelle, pour trouver les taureaux ayant

une valeur génétique élevée, leurs descendances sont testées. Ainsi la sélection génomique

permettra de sélectionner des taureaux sans passer par le test de descendances et ses taureaux

pourront même être sélectionnés avant d’avoir atteint l’âge de se reproduire, ce qui implique

un gain de temps considérable pour un programme de sélection animale (Hayes et al., 2009).

1.3.4 – La sélection génomique chez les plantes

Chez les plantes, la sélection génomique a aussi été étudiée à travers des études de

simulations et des études empiriques pour voir ses avantages par rapport aux méthodes de

sélection classiques, mais elle n’est pas aussi développée que dans les programmes de

sélection animale. Contrairement aux animaux, les plantes cultivées appartiennent à une

diversité d’espèces qui ont des systèmes de reproduction, des temps de génération, des

structures de génome et des organes utilisés très différents. Les méthodes de sélection

conventionnelle comme la sélection phénotypique et la SAM s’adaptent aux différents types

d’espèces végétales, la sélection génomique devra aussi être adaptée (Nakaya et Isobe, 2012).

Les premières études de simulation de la GS qui ont été effectuées sur une espèce précise ont

été faites sur le maïs par Bernardo et Yu (2007) qui ont démontré que pour trois cycles de

sélection de lignées d’haploïdes doublés de maïs, la GS avait une réponse 18 à 43 % plus

grande que celle de la SAM. D’autres études de simulations ont été réalisées pour d’autres

6

types de populations végétales comme des lignées pures ou des populations allogames comme

chez le palmier à huile, pour observer l’efficacité de la GS en fonction du type de matériel

utilisé.

Des études empiriques ont aussi été réalisées sur les principales espèces agronomiques

comme le maïs, le blé ou encore l’orge. Chez le blé, Crossa et al. (2010) ont ciblé le

rendement en grain comme caractère et les précisions de prédiction des GEBV allaient de

0.48 à 0.61 selon l’environnement dans lequel se développaient les plants. La sélection

génomique a aussi été conduite sur des plantes pérennes où il est considéré que la GS sera

plus efficace que sur les plantes annuelles car leur cycle de vie est plus long. Par exemple,

chez Pinus taeda où une population de plein frères a été utilisée, les précisions de prédiction

des GEBV allaient de 0.3 à 0.83 selon les caractères de croissance et de qualité du bois

considérés (Isik et al., 2011). La GS serait plus utile chez les plantes pérennes car elle

permettrait de réduire le temps d’un cycle de sélection. Par exemple, chez le palmier à huile,

la sélection génomique pourrait aider à développer des variétés améliorées tous les 6 ans

contre 19 ans avec la sélection conventionnelle (Wong et Bernardo, 2008).

Chez le pommier, très peu d’études sur la sélection génomique ont été publiées.

Kumar et al. (2012) ont étudié l’impact de la GS pour les caractères de qualité de la pomme.

Cette étude a été faite sur une population de sept familles de plein-frères et en validation

croisée au hasard, d’où un fort apparentement entre la population candidate et la population

d’entrainement. Pour ces caractères, la sélection génomique pourrait être un avantage. En

effet, pour phénotyper la qualité des pommes, il faut attendre environ 7 ans que le pommier

puisse produire des fruits, ce qui entraine des coûts conséquents de phénotypage. Dans cette

étude, l’efficacité des GEBV allait de 0.67 à 0.89 pour six caractères de qualité de la pomme.

Une autre étude a été conduite sur les caractères clés du pommier, comme la taille du fruit ou

sa couleur. Dans cette étude, une population multi-parentale a été utilisée et l’efficacité de

prédiction était en général faible, elle allait de 0 à 0.5 selon les caractères. Ces résultats ont

mis en évidence l’importance de l’héritabilité et de la composition de la population

d’entraînement, qui devrait avoir un lien avec la population candidate, sur la variabilité de

l’efficacité de prédiction (Muranty et al., 2015)

7

1.4 - Objectif du stage

L’objectif de ce stage est de tester différents modèles de prédiction génomique en

comparant leur efficacité de prédiction. Ces modèles seront testés sur différentes populations

de pommiers qui diffèrent entre elles selon leur structure. Le caractère étudié sera la résistance

à la tavelure du pommier. Cela permettra de voir si la sélection génomique pourrait être

utilisée pour les caractères de résistance aux maladies chez le pommier.

Figure 5 - Pedigree des familles de la population HiDRAS

8

II - Matériels et méthodes

2.1 - Matériel végétal

2.1.1 - Population HiDRAS

La population nommée HiDRAS est composée de treize descendances en F1. Elle a

été constituée dans le cadre du projet européen HiDRAS (High-quality Disease Resistant

Apples for a Sustainable Agriculture)(Gianfranceschi et Soglio, 2004) à partir de

descendances produites dans le cadre du programme d’amélioration du pommier de l’INRA

d’Angers. Cette population compte 705 individus. Il est à noter que les parents des

descendances sont apparentés entre eux, on a donc ici une population en pedigree (figure 5).

2.1.2 - Core collection

La population nommée core collection provient des vergers conservatoires de

ressources génétiques de l’INRA d’Angers. Cette population est composée de 230 individus

qui représentent au mieux la diversité génétique de la collection INRA de variétés anciennes

et qui n’ont pas de lien de parenté entre eux (Lassois et al., 2016).

2.2 - Phénotypage de la population HiDRAS

Des greffons de l’ensemble des génotypes de la population ont été greffés sur des

porte-greffes. Une première partie des plants a été inoculée par pulvérisation au printemps

2005 avec un mélange de quatre souches monoconidiales de V.inaequalis (la souche EU-B04

qui est avirulente-Vf, et les trois souches EU-D42, 1066 et EU-NL24 qui sont virulentes-Vf),

puis l’ensemble des plants a continué sa croissance pendant deux mois. Ils ont ensuite été

placé en chambre froide (1°C) pendant deux mois et demi pour mimer la vernalisation. A

l’automne suivant, la seconde partie des plants a été inoculée par pulvérisation par le même

mélange de souches monoconidiales utilisé au printemps. Seulement deux génotypes par

descendance ainsi que les parents et les témoins sensibles ont été testés à la fois au printemps

et à l’automne. Les ancêtres ont été inoculés uniquement au printemps.

La sévérité de la sporulation a été notée sur feuilles à 14, 21 et 28 jours après

inoculation. L’AUDPC (Area Under Disease Progress Curve) a été calculée à partir des

Figure 6 – Diagramme de Venn montrant la répartition des individus de la core collection

utilisés pour les tests de résistance à la tavelure. AUDPC 2012 représente le test effectué en

2012, AUDPC_A2013 et AUDPC_P2013 les tests effectués à l’automne et au printemps de

l’année 2013 respectivement, et AUDPC 2016 représente le test effectué en 2016.

9

notations de sporulation réalisées aux trois dates et a été utilisée pour mesurer la sensibilité

des génotypes à la tavelure. Ce travail a été effectué par Vanessa Soufflet-Freslon.

2.3 - Phénotypage de la core collection

Quatre tests de résistance à la tavelure ont été réalisés au printemps 2012, au printemps

2013, à l’automne 2013 et au printemps 2016. Pour chaque test, les individus de la core

collection ont été greffés sur des porte-greffes, puis mis en serre où l’inoculation des souches

de tavelure du pommier par pulvérisation sur les feuilles des plants a été effectuée.

L’inoculum du printemps 2012 correspondait à la souche monoconidiale EU-B04, celui du

printemps 2013 contenait un mélange de cinq souches 104/163/EU-B04/EU-NL24/EU-D42.

L’inoculum de l’automne 2013 contenait la souche monoconidiale 104 et celui du printemps

2016 contenait la souche mononidiale EU-B04. Les populations des quatre tests contenaient

des individus différents et avaient une taille différente. Cependant, 152 individus étaient

communs aux quatre tests. Un diagramme de Venn a été réalisé pour illustrer les individus

communs et différents des quatre tests (figure 6).

Après l’inoculation, les plants ont été notés à 7, 14, 21 et 28 jours post-inoculation. A

partir de ces notations, l’AUDPC a été calculée. Ce travail a été réalisé par Diane Leforestier

pour les tests de résistance réalisés en 2012 et 2013 et par l’équipe Respom pour le test réalisé

en 2016.

2.4 - Génotypage des deux populations

La population HiDRAS a été génotypée à l’aide d’une puce 20K dans le cadre du

projet européen FruitBreedomics (www.fruitbreedomics.com/). 7549 marqueurs SNP ont été

retenus.

La population core collection a été génotypée à l’aide de la puce Axiom-Apple-480K

SNPs (Bianco et al., 2016) dans le cadre du projet FruitBreedomics. 275 223 marqueurs SNP

ont été retenus.

http://www.fruitbreedomics.com/

Figure 7 - Schéma du principe de la « k-fold cross-validation »

10

2.5 -Mise en forme des données et calcul de la prédiction génomique

Les jeux de données des deux populations étudiées ont été mis en forme grâce au

logiciel R (R Core Team, 2015). Les données aberrantes ont été identifiées par la visualisation

des distributions des données et ont été supprimées.

Le package Synbreed (Wimmer et al., 2012) a permis le regroupement des données

génotypiques, phénotypiques et de pedigree (quand ces dernières étaient disponibles) dans un

même jeu de données, ainsi que de mettre en forme les données génotypiques pour pouvoir

utiliser les fonctions des modèles de prédiction des packages.

Les précisions de prédiction des modèles de prédiction génomique Bayesian LASSO

(least absolute shrinkage on selection operator) et GBLUP (genomic best linear unbiased

prediction) ont été calculées par validation croisée (cross validation) grâce au package

Synbreed et celles des modèles de prédiction BayesA, BayesB et BayesCπ ont aussi été

calculées par cross validation mais avec le package BGLR (de los Campos et Rodriguez,

2015).

La cross-validation (validation croisée) est un outil de statistique qui permet de

mesurer la performance prédictive d’un modèle statistique, ici les modèles cités

précédemment. La validation croisée utilisée dans cette étude est la « k-fold cross-validation »

(figure 7), où le jeu de données est divisé en k échantillons. Un des k échantillons est utilisé

comme un ensemble de validation et les (k-1) échantillons sont utilisés comme ensemble

d’entraînement. Le modèle est construit avec l’ensemble d’entraînement, puis la capacité de

prédiction du modèle est testée sur l’ensemble de validation. Cette opération est répétée k fois

jusqu’à ce que tous les k échantillons aient été utilisés exactement une fois comme ensemble

de validation.

La fonction CrossVal du package Synbreed a permis de prendre en compte la structure en

familles dans la population HiDRAS. Ainsi, en utilisant la valeur « Within popStruc », la

validation croisée est effectuée au sein de chaque famille et avec la valeur « Across

popStruc », les ensembles d’entrainement et de validation contiennent plusieurs familles.

2.6 – Modèles de prédiction génomique utilisés

Dans cette étude, les cinq modèles de prédiction génomique choisis sont des modèles

bayésiens pour pouvoir résoudre le problème « large p, small n », c’est-à-dire que le nombre

de marqueurs dépasse largement le nombre d’individus. Les différences entre ces modèles

11

concernent les hypothèses faites sur les distributions des effets aux marqueurs (figure 4). Le

package Synbreed (Wimmer et al., 2012), comme cité précédemment, a permis l’utilisation

du modèle GBLUP qui se sert d’une matrice d’apparentement génomique. Avec cette matrice,

les écarts aléatoires à la relation attendue en fonction du pedigree, causés par l’effet

d’échantillonnage mendélien peuvent être quantifiés. Ce modèle est définit comme s’en suit :

y= Xβ + Zu + e

où X est la matrice d’incidence des effets fixés qui incluent la moyenne de la population et les

effets des macro-environnements éventuellement; β est le vecteur des effets fixés, Z est la

matrice d’incidence des effets aléatoires et e est la résiduelle. La variable aléatoire u est

définie par :

u~N(0,Uσ²u )

Où σ²u est la variance génétique se rapportant au modèle GBLUP et U est la matrice

d’apparentement génomique.

Le modèle BL (Bayesian LASSO) qui prédit les effets des marqueurs SNP, contrairement au

modèle G-BLUP, est définit par :

y= Xβ +Wm + e

Tous les éléments sauf m et W sont les mêmes que ceux définis dans le modèle G-BLUP. Le

paramètre W est la matrice des marqueurs n x p et le paramètre m est le vecteur des effets des

marqueurs SNP qui est donné par :

m~N(0,Tσ²)

avec T = diag (τ12

,…, τ j2 ,…,τp

2 ) et la hiérarchie du modèle suivant :

τ j2 ~ Exp (λ²), j = 1,…,p

λ² ~ Ga (α, β)

ei ~ N (0,σ²), i= 1,…, n

σ² ~ χ-2

(v,S²)

12

T regroupe les hyperparamètres du modèle. Pour plus d’information, se référer à l’article de

de los Campos et al. (2009).

Quant au package BGLR, il a permis l’utilisation des modèles de prédiction BayesA, BayesB

et BayesCπ. Ces trois modèles sont dérivés d’un même modèle de base :

yi= g(xi) + ei

où y est le phénotype observé d’un individu i (avec i = 1…n), xi est le vecteur 1 x p des

génotypes des marqueurs de l’individu i, g(xi) est une fonction reliant les génotypes aux

phénotypes et ei est la résiduelle. Avec le modèle BayesA, chaque effet de marqueur a sa

propre variance, ce qui permet à chaque effet de marqueur de tendre vers zéro à un degré

différent. Dans le modèle BayesB, il est supposé qu’un marqueur n’a pas du tout d’effet et

donc var(βk) = 0 avec une probabilité π, où βk est l’effet associé au marqueur k . Comme dans

BayesA, chaque effet de marqueur a sa propre variance. Ce modèle est basé sur le fait qu’en

réalité, la variance génétique est présente à peu de loci et qu’elle est absente à beaucoup de

loci.

Le modèle BayesC𝜋 estime π, ce qui n’était pas le cas pour BayesB, avec la loi a priori de la

distribution pour π qui est une loi uniforme entre 0 et 1. De plus, le modèle Bayes Cπ

présuppose une unique loi a priori de distribution des effets pour tous les marqueurs, la

variance des effets des marqueurs est commune.

-0.1

6E-16

0.1

0.2

0.3

0.4

0.5

0.6

AUDPC-prtps AUDPC-aut AUDPC-global

Eff

iica

cité

de

pré

dic

tio

n

BayesB

BayesCπ

BL

GBLUP

BayesA

Figure 8 - Efficacité de prédiction des différents modèles en fonction des caractères étudiés

dans la population HiDRAS.

Données : moyennes ± erreur standard. Le caractère AUDPC-prtps correspond aux AUDPC

calculées à partir des notations de la première moitié de population HiDRAS inoculée au

printemps 2005, le caractère AUDPC-aut correspond aux AUDPC calculées à partir des

notations de la deuxième moitié de la population inoculée à l’automne 2005 et le caractère

AUDPC-global correspond aux AUDPC ajustées pour les effets blocs et saisons sur

l'ensemble de la population HiDRAS

13

III - Résultats

3.1 - Efficacité de prédiction des modèles pour les caractères étudiés dans la population

HiDRAS

Pour la population HiDRAS, la figure 8 présente les efficacités de prédiction des

modèles de prédiction génomique qui ont été obtenues par des validations croisées qui ne

prenaient pas en compte la structure de la population c'est-à-dire les différentes familles

existant au sein de la population. Les modèles de prédiction génomique ont eu des efficacités

de prédictions variant entre 0.14 et 0.59 selon les caractères étudiés.

Pour le caractère AUDPC-prtps, avec les modèles BayesB, BayesCπ, BL et GBLUP,

l’efficacité de prédiction est comprise entre 0.5 et 0.6, et BayesB a la meilleure efficacité de

prédiction (0.59). Le modèle BayesA a la plus mauvaise efficacité de prédiction avec 0.37.

Pour le caractère AUDPC-aut, les efficacités de prédiction des modèles sont

comprises 0.25 et 0.4. BayesA a la moins bonne efficacité de prédiction (0.26) et GBLUP a la

meilleur efficacité avec un score de 0.36. Les efficacités de prédiction sont moins élevées

pour ce caractère que pour le caractère précédent, quasiment deux fois plus faibles pour tous

les modèles excepté pour BayesA.

Pour le caractère AUDPC-global, les quatre meilleurs modèles ont une efficacité de

prédiction comprise entre 0.45 et 0.5; il n’y a donc pas de différences majeures entre ces

modèles. Toutefois, BayesB a la meilleure efficacité de prédiction (0.5). Le modèle BayesA a

la plus mauvaise efficacité de prédiction avec 0.14.

Pour les trois caractères étudiés dans la population HiDRAS, le modèle BayesA est

celui qui a eu la moins bonne efficacité de prédiction. Les quatre autres modèles de prédiction

génomique ont des efficacités de prédiction qui se situent toujours dans la même fourchette de

valeurs, aucun modèle ne se démarque vraiment des autres. Il est tout de même à noter que le

modèle BayesB est celui qui a l’efficacité de prédiction la plus grande pour deux caractères,

AUDPC-prtps et AUDPC-global.

Des validations croisées ont aussi été effectuées en tenant compte de la structure de la

population HiDRAS. En effet, la validation croisée a été faite au sein des familles de la

population et aussi entre les familles. Seuls les modèles GBLUP et BL ont pu être testés en

fonction de la structuration de la population (Figure 9).

0

0.1

0.2

0.3

0.4

0.5

0.6

Random AcrosspopStruc

WithinpopStruc

Eff

ica

cité

de

pré

dic

tio

n

BL

GBLUP

0

0.1

0.2

0.3

0.4

0.5

0.6


WithinpopStruc

Eff

ica

cité

de

pré

dic

tio

n

BL

GBLUP

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

AUDPC2016 AUDPC2012 AUDPC_A2013 AUDPC_P2013

Eff

ica

cité

de

pré

dic

tio

n

BayesB

BayesCπ

BL

GBLUP

BayesA

0

0.1

0.2

0.3

0.4

0.5

0.6


WithinpopStruc

Eff

ica

cité

de

pré

dic

tio

n

BL

GBLUP

C

Figure 9- Efficacité de prédiction des modèles GBLUP et BL en fonction de

la structure de la population pour les trois caractères étudiés dans la population HiDRAS

Données : moyennes ± erreur standard. Le graphique A présente les efficacités de prédiction pour

le caractère AUDPC-prtps, le graphique B, pour le caractère AUDPC-aut et le graphique C, pour le

caractère AUDPC-global. Le paramètre « random » représente la validation croisée faite de manière

aléatoire, le paramètre « Across popStruc » représente celle faites entre les familles de la population

HiDRAS et le paramètre « Within popStruc » représente la validation croisée faites au sein des

familles.

Figure 10 - Efficacité de prédiction des différents modèles en fonction des caractères étudiés dans

la core collection

Données : moyennes ± erreur standard. Le caractère AUDPC2016 correspond aux AUDPC

calculées à partir des notations du printemps 2016, le caractère AUDPC2012 correspond à celles

calculées à partir des notations du printemps 2012 et les caractères AUDPC_A2013 et

AUDPC_P2013 correspond à celles calculées à partir des notations de l’automne et du printemps

2013 respectivement.

A B

14

La caractéristique « Random » représente la validation croisée effectuée en ne prenant pas en

compte la structuration de la population et a déjà été décrite dans la figure 8. Les modèles

étudiés ici ont une efficacité de prédiction similaire l’un par rapport à l’autre quel que soit le

caractère et le paramètre de structuration de la population. Pour le caractère AUDPC-prtps

(figure 9), la validation croisée au sein des familles indique une aussi bonne efficacité de

prédiction qu'une validation croisée faite au hasard avec un score de 0.55 environ, tandis

qu'une validation croisée entre les familles a une plus faible efficacité de prédiction avec un

score de 0.48 environ.

Pour le caractère AUDPC-aut, l’efficacité de prédiction des trois types de validation

croisée suit la même tendance que pour le caractère AUDPC-prtps, c’est-à-dire que le type de

la validation croisée « Within popStruc » a environ la même efficacité de prédiction que type

de validation croisée aléatoire avec un score d’environ 0.35 , et que le type de validation

croisée « Across popStruc » a une moins bonne efficacité de prédiction que les deux autre

paramètres avec un score de 0.2 environ. On retrouve également la même tendance pour le

caractère AUDPC-global.

En général, pour les trois caractères, la validation croisée entre les familles donne une

moins bonne efficacité de prédiction que les validations croisées au sein des familles ou au

hasard. La structuration de la population a donc une influence sur l’efficacité de prédiction

des modèles GBLUP et BL.

3.2 - Efficacité de prédiction des modèles pour les caractères étudiés sur la core

collection

Pour la core collection, la figure 10 présente les efficacités de prédiction des modèles

obtenues par validation croisée pour les différents caractères étudiés. Le modèle de prédiction

BL a une très faible efficacité de prédiction pour les quatre caractères. Lors de la phase de

calcul de la validation croisée pour le modèle BL, plusieurs messages d’erreurs se sont

affichés et ces erreurs ont pu fausser les résultats concernant l’efficacité de prédiction. Aussi,

le modèle BL ne sera pas pris en compte dans l’analyse.

0

0.1

0.2

0.3

0.4

0.5

0.6

BL GBLUP BayesB BayesA BayesCπ

Eff

ica

cité

de

pré

dic

tio

n

AUDPC2016_CC

AUDPC_prtps_HiDRAS

Figure 11 - Comparaison de l'efficacité de prédiction des modèles selon l'AUDPC_printemps

des deux populations

Données : moyennes ± erreur standard

15

Pour le caractère AUDPC 2016, les efficacités de prédiction des quatre modèles

restants se situent toutes aux alentours de 0.3. Les modèles BayesA et BayesB ont la meilleure

efficacité de prédiction avec un score de 0.3 et les modèles BayesCπ et GBLUP ont une

efficacité de prédiction de 0.29. Pour le caractère AUDPC 2012, le modèle BayesB se

démarque des autres en ayant la meilleure efficacité de prédiction avec un score de 0.3. Les

autres modèles ont tous une efficacité de prédiction de 0.26

Pour le caractère AUDPC_A 2013, le modèle GBLUP a la meilleure efficacité de

prédiction avec un score de 0.27. Le modèle BayesB a la deuxième meilleure efficacité de

prédiction avec un score de 0.23 et les deux modèles restants ne sont pas loin avec une

efficacité de prédiction de 0.22 pour BayesA et 0.21 pour BayesC𝜋.

Le caractère AUDPC_P 2013 a montré les plus mauvaises efficacités de prédiction

quel que soit le modèle. Ces efficacités ne dépassent pas 0.1. Le modèle ayant la meilleure

efficacité de prédiction est BayesA avec un score de 0.08. Il faut noter que les plants ont été

testés au printemps 2013 avec un mélange de souches de V.inaequalis alors que les autres

tests étaient réalisés avec une seule souche.

3.3 - Comparaison de l’efficacité de prédiction des différents modèles de prédiction selon

les deux populations analysées

Pour comparer les deux populations entre elles, les caractères d’AUDPC de printemps

et d’automne des populations ont été comparés entre eux. Pour les caractère d’AUDPC

printemps de la core collection, celui ayant eu les meilleures efficacités de prédiction a été

choisi, c’est-à-dire le caractère AUDPC 2016.

Pour les caractères AUDPC printemps des deux populations (figure 11), les modèles

de prédiction génomique ont une meilleure efficacité de prédiction pour la population

HiDRAS que pour la core collection. En effet, pour les modèles GBLUP, BayesB et

BayesCπ, cette efficacité est quasiment deux fois plus grande pour la population HiDRAS

avec des scores proches de 0.55, que chez la population core collection qui présente des

scores d’efficacité de prédiction ne dépassant pas 0.3. Le modèle BayesA a aussi une

meilleure efficacité de prédiction pour la population HiDRAS alors que celle-ci est la moins

bonne par rapport aux efficacités des autres modèles utilisés. Pour le modèle BL, une

comparaison entre les deux populations n’est pas possible car comme expliqué

précédemment, le calcul de la validation croisée effectuée pour le modèle BL a affiché des

messages d’erreurs et donc son résultat est non analysable.

0

0.1

0.2

0.3

0.4

0.5

0.6

BL GBLUP BayesB BayesA BayesCπ

Eff

ica

cité

de

pré

dic

tio

n

AUDPC_A2013 _CC

AUDPC_aut_HiDRAS

Figure 12 - Comparaison de l'efficacité de prédiction des modèles selon l'AUDPC_automne

des deux populations

Données : moyennes ± erreur standard

16

Pour les caractères d’AUDPC automne des deux populations (figure 12), encore une

fois, tous les modèles ont une meilleure efficacité de prédiction pour la population HiDRAS

que pour la core collection, mais cette différence est moins grande. En effet, pour la

population HiDRAS, les modèles ont une efficacité de prédiction proche de 0.35, alors que

pour la core collection, cette efficacité des modèles pris en compte est proche de 0.25. Il est à

noter que le caractère AUDPC-aut de la population HiDRAS est le caractère pour lequel

l'efficacité de prédiction est la plus faible.

IV – Discussion

Pour les deux populations de pommiers étudiées, les modèles qui ont eu les meilleures

efficacités de prédiction se trouvaient dans la même gamme de valeurs, ils n’étaient pas

séparés par plus de 0.05 pour chacun des caractères étudiés. Seul le modèle BayesA a eu une

efficacité de prédiction beaucoup plus basse que les autres modèles pour les caractères étudiés

dans la population HidRAS. Le modèle BayesB a eu souvent la meilleure efficacité de

prédiction quelque soit le caractère et quelle que soit la population. Clark et al. (2011) ont

conclu que le modèle BayesB était plus précis que le modèle GBLUP pour prédire les valeurs

de sélection et qu’il était le plus robuste face aux changements du modèle dépendant de la

variation génétique. Cette conclusion est similaire à celles des études de Meuwissen et al.

(2001) et Habier et al. (2007). En général le modèle BayesB a une meilleure performance que

le modèle BayesA car il est une amélioration de ce dernier modèle. En effet, le modèle

BayesB présuppose que certains marqueurs ont un effet nul, avec une probabilité π, ce qui est

plus proche de la réalité. Le modèle BayesCπ est une variante de BayesB où π est estimé et

non fixé par l’utilisateur comme dans BayesB. Le modèle BayesCπ est ainsi préféré dans les

études de sélection génomique au modèle BayesB. Ici, le modèle BayesCπ a une moins bonne

efficacité de prédiction que BayesB, cela pourrait impliquer que le package BGLR utilisé

pour tester les modèles n’a pas bien estimé π.

Les modèles BayesB, BayesCπ, GBLUP et BL ont eu une meilleure efficacité de

prédiction pour les caractères de résistance dans la population HiDRAS que dans la core

collection. Cette efficacité est comprise entre 0.31 et 0.59 et elle peut être expliquée par

plusieurs caractéristiques de la population HiDRAS.

17

La population HiDRAS est composée de plusieurs familles qui sont apparentés entre

elles et dont on connaît le pedigree. Cette population a été utilisée comme populations

d’entraînement et candidate, et si ces deux populations sont liées entre elles par

apparentement, l’efficacité de prédiction des modèles est plus haute (Heffner, Sorrells et

Jannink, 2009). Il est tout de même à noter que la validation croisée ayant été effectuée entre

les familles donnait des résultats d’efficacité plus faible par rapport à la validation croisée

effectuée à l’intérieur des familles. Ceci indique que si on prend en compte la structure d’une

population dans la GS, plus les individus seront proches entre eux génétiquement, plus

l’efficacité de prédiction sera meilleure. De plus, dans ces familles, le déséquilibre de liaison

entre les QTLs d’intérêt et les marqueurs est fort, ce qui augmente l’efficacité de prédiction

des modèles bayésiens comme l’ont démontré les résultats de simulation de Habier et al.

(2007). L’héritabilité au sens large individuelle avait une étendue entre 0.32 à 0.65, ce qui

révélait une répétabilité correcte entre les copies d’un même génotype. Les héritabilités de

moyennes génotypiques étaient fortes avec une étendue de 0.59 à 0.85, ce qui traduisait une

bonne estimation des valeurs génotypiques moyenne par les valeurs phénotypiques (Soufflet-

Freslon, 2008). L’héritabilité a une influence positive sur l’efficacité de prédiction Il est aussi

à noter que le nombre d’individus de la population est de 705, ce qui va augmenter l’efficacité

de prédiction des modèles. L’utilisation dans la sélection génomique d’une population de

pommiers qui ont un lien de parenté entre eux va aboutir à de meilleurs résultats.

Pour la core collection, l’efficacité de prédiction des modèles BayesB, BayesCπ,

BayesA, et GBLUP est plus faible que pour la population HiDRAS, Ceci peut s’expliquer par

la structure de la population et par son nombre d’individus qui se situe aux alentours de 230.

En effet, les individus de la core collection ne sont pas apparentés entre eux et les individus

n’ont pas de données de pedigree. De plus, dans cette population, l'absence d'apparentement

entre les individus signifie qu'il y a eu beaucoup de recombinaisons dans les générations

successives depuis les ancêtres communs des individus. En conséquence, le déséquilibre de

liaison entre les QTLs d’intérêts et les marqueurs génotypés est probablement faible, ce qui

entraîne un résultat d’efficacité de prédiction plus faible. Les héritabilités des caractères de

résistance étaient comprises entre 0.45 et 0.86 (Leforestier, 2015). Le génotypage des

individus de la core collection s’est effectué avec 275 223 marqueurs et l’efficacité maximale

de prédiction atteinte est de 0.3. Pour la population HiDRAS, le génotypage des individus

s’était effectuée avec seulement 7549 marqueurs. Pour la population HiDRAS, la densité de

marqueurs pouvait être plus faible car la population candidate comportait des individus

18

fortement apparentés à certains individus de la population d’entraînement (pleins-frères,

demi-frères) et dans ce cas là, la densité des marqueurs peut être réduite sans que cela impacte

négativement l’efficacité de prédiction (Jannink, Lorenz et Iwata, 2010). Comme il n’y a pas

de lien entre la population candidate et d’entrainement dans la core collection, l’efficacité de

prédiction est faible même avec un grand nombre de marqueurs utilisés. Pour augmenter

l’efficacité de prédiction des modèles testés sur la core collection, il faudrait augmenter

encore plus le nombre de marqueurs, ou changer de type de marqueurs. En effet Solberg et al.

(2008) a conclu que pour obtenir une efficacité de prédiction similaire, il fallait 2 à 3 fois plus

de marqueurs SNP que de marqueurs SSR. Toutefois les marqueurs SNP sont plus facilement

automatisables et ils peuvent être utilisés à très haut débit.

L’efficacité de la sélection génomique est influencée par divers facteurs parmi lesquels

la densité des marqueurs, la taille et la structure de la population et l’environnement (Kumar

et al., 2011b). Pour la population HiDRAS et le caractère AUDPC-aut, les modèles de

prédiction génomique ont eu une plus faible efficacité de prédiction que pour les autres

caractères étudiés. Cette plus faible efficacité est peut-être due aux conditions

environnementales (comme la saison) dans lesquelles le test de résistance à la tavelure a été

effectué, même s'il a été réalisé en serre. Des études effectuées sur des descendances de

pommier pollinisées librement ont montré que les effets des interaction génotype x

environnement (G x E) pourrait avoir un impact significatif pour certains caractères de

résistance aux maladies (Kumar et al., 2011a). Pour la core collection et les différents

caractères d’AUDPC, les modèles ont eu différentes efficacités de prédiction. Le nombre

d’individus phénotypés pour chaque caractère est différent et les individus ne sont pas les

mêmes bien qu’une majorité des individus soit commune entre les quatre caractères. Les

souches de tavelure du pommier utilisées pour les inoculations sont également différentes

selon les caractères. Par exemple, pour le caractère AUDPC_P2013, tous les modèles de

prédiction ont eu une efficacité de prédiction très basse comparée aux autres caractères. Ceci

peut être expliqué par le mélange de souches de tavelure utilisé pour l’inoculation qui pouvait

contourner plusieurs gènes de résistance.

Plusieurs études portant sur la sélection génomique pour des caractères de résistance

aux maladies chez les plantes ont été publiés. Pour les caractères de résistance à la rouille du

blé, Daetwyler et al. (2014) ont étudié la prédiction génomique des modèles BayesR et

GBLUP. En général, chez le blé, l’efficacité de prédiction génomique va de 0.3 à 0.8 avec

relativement peu de marqueurs, car la nature autogame du blé mène à un fort déséquilibre de

liaison. Dans cette étude, 247 accessions de blés provenant de la collection Watkins ont été

19

phénotypés et génotypés, 5 568 marqueurs SNP ont été retenus. Pour les caractères de

résistance, les efficacités de prédiction allaient de 0.27 à 0.48 pour le modèle GBLUP et de

0.3 à 0.38 pour le modèle BayesR. Le niveau d’efficacité de prédiction des caractères est en

concordance avec le niveau d’héritabilité génomique. Pour les trois caractères de résistance

étudiés, très peu de marqueurs à grand effets ont été identifiés, suggérant qu’un grand nombre

de locus a contribué à la variance génétique des caractères. Les auteurs ont conclu que la

sélection génomique avait une utilité potentielle pour la sélection de variétés de blé ayant des

résistances à la rouille plus durables. Une autre étude d’évaluation de la sélection génomique

chez le blé pour la résistance à la fusariose a été conduite par Rutkoski et al. (2012). Dans

cette étude, quatre modèles de prédiction ont été utilisés : RR (ridge regression) BLUP, BL,

RF (random forest) et RKHS (reproducing kernel Hilbert spaces). Dans leur étude les modèles

RF et RKHS ont eu une meilleure efficacité de prédiction que les autres modèles. Selon les

auteurs, cette meilleure performance pouvait être expliquée par le design des pépinières dans

lesquels les plants de blés se sont développés ou par l’architecture génétique des caractères

étudiés. Ils ont aussi soulignés que les modèles RF et RKHS sont capables de capturer les

effets non additifs (ici l’épistasie) et qu’ainsi ils peuvent être plus précis que les autres

modèles pour les caractères où les effets non aditifs sont importants. Ils ont conclus que la

sélection génomique pouvait bien réussir pour des cas concernant la résistance, comme la

résistance à la fusariose dans les ressources génétiques de blés américains, mais qu’il y avait

encore des points à approfondir.

Ces deux études vont dans le même sens concernant l’impact de la sélection

génomique pour la sélection de caractères de résistance. Pour la première étude, les efficacités

de prédictions génomiques sont environ dans la même gamme de valeurs que les efficacités

de prédiction obtenues dans la population HiDRAS, ce qui confirme que la sélection

génomique serait une contribution positive et majeure pour la sélection de pommiers

présentant des résistances à la tavelure du pommier.

V – Conclusion et perspectives

L'étude que j'ai réalisée montre que la sélection génomique peut contribuer à rendre

plus efficace la sélection de variétés de pommiers pour des composantes de résistance à la

tavelure.

20

Pour la suite de cette étude, les facteurs influençant la précision de prédiction de la

sélection génomique pourront être examinés plus attentivement. En effet, la taille de la

population étudiée ou la densité des marqueurs pourront être augmentées pour accroitre la

précision de prédiction de la sélection génomique. L’impact de l’interaction génotype x

environnement (G x E) sur l’efficacité de prédiction devra être étudié plus en détails car

l’efficacité de prédiction des modèles a été influencée par les saisons. Pour la core collection,

la taille de la population et la densité des marqueurs pourront être augmentées pour étudier

leur impact sur l’efficacité de population pour un groupe d’individus qui n’ont pas de lien de

parenté entre eux. Cependant, il faudra prendre en compte le type de technique de génotypage

utilisé car le coût de génotypage pour un individu varie selon la technique. A partir de la

population HiDRAS, un programme de sélection pour résistance à la tavelure du pommier

pourra être conduit pour la sélection d’individus issus des mêmes familles ou issus de

croisements impliquant les mêmes parents. Toutefois, il faudra prendre en compte le coût du

programme de sélection qui est très élevé en général.

Bibliographie

Bernardo, R. and Yu, J. (2007) Prospects for Genomewide Selection for Quantitative Traits

in Maize. Crop Science, 47, 1082.

Bianco, L., Cestaro, A., Linsmith, G., et al. (2016) Development and validation of the

Axiom ® Apple480K SNP genotyping array. The Plant Journal, 86, 62–74.

Bowen, J.K., Mesarich, C.H., Bus, V.G.M., Beresford, R.M., Plummer, K.M. and

Templeton, M.D. (2011) Venturia inaequalis: the causal agent of apple scab: Venturia

inaequalis. Molecular Plant Pathology, 12, 105–122.

Brun, L., Didelot, F. and Parisi, L. (2007) Stratégies de protection innovantes contre la

tavelure du pommier: conception, évaluation et intégration en verger. Innovations

agronomiques, 1, 33–45.

Bus, V.G.M., Rikkerink, E.H.A., Caffier, V., Durel, C.-E. and Plummer, K.M. (2011)

Revision of the Nomenclature of the Differential Host-Pathogen Interactions of

Venturia inaequalis and Malus. Annual Review of Phytopathology, 49, 391–413.

de los Campos, G., Naya, H., Gianola, D., Crossa, J., Legarra, A., Manfredi, E., Weigel,

K. and Cotes, J.M. (2009) Predicting Quantitative Traits With Regression Models for

Dense Molecular Markers and Pedigree. Genetics, 182, 375–385.

de los Campos, G., Hickey, J.M., Pong-Wong, R., Daetwyler, H.D. and Calus, M.P.L. (2013) Whole-Genome Regression and Prediction Methods Applied to Plant and

Animal Breeding. Genetics, 193, 327–345.

de los Campos, G., Perez Rodriguez, P., (2015). BGLR: Bayesian Generalized Linear

Regression. R package version 1.0.4. https://CRAN.R-project.org/package=BGLR

Clark, S.A., Hickey, J.M. and Van der Werf, J.H. (2011) Different models of genetic

variation and their effect on genomic evaluation. Genet Sel Evol, 43, 10–1186.

Cornille, A., Giraud, T., Smulders, M.J.M., Roldán-Ruiz, I. and Gladieux, P. (2014) The

domestication and evolutionary ecology of apples. Trends in Genetics, 30, 57–65.

Crossa, J., Campos, G. d. l., Perez, P., et al. (2010) Prediction of Genetic Values of

Quantitative Traits in Plant Breeding Using Pedigree and Molecular Markers.

Genetics, 186, 713–724.

Desta, Z.A. and Ortiz, R. (2014) Genomic selection: genome-wide prediction in plant

improvement. Trends in Plant Science, 19, 592–601.

Daetwyler, H.D., Bansal, U.K., Bariana, H.S., Hayden, M.J. and Hayes, B.J. (2014)

Genomic prediction for rust resistance in diverse wheat landraces. Theoretical and

Applied Genetics, 127, 1795–1803.

FranceAgrimer, la pomme en 2014-2015. Available at :

http://www.franceagrimer.fr/content/download/40897/381190/file/BIL-POMME-

camp%202014-15.pdf

Gianfranceschi, L. and Soglio, V. (2003) The European project HiDRAS: innovative

multidisciplinary approaches to breeding high quality disease resistant apples. In XI

Eucarpia Symposium on Fruit Breeding and Genetics 663. pp. 327–330. Available at:

http://www.actahort.org/books/663/663_55.htm [Accessed June 14, 2016].

Goddard, M.E. and Hayes, B.J. (2007) Genomic selection. Journal of Animal breeding and

Genetics, 124, 323–330.

Habier, D., Fernando, R.L. and Dekkers, J.C.M. (2007) The impact of genetic relationship

information on genome-assisted breeding values. Genetics 2007, 177:2389-2397.

Harris BL, Johnson DL, Spelman RL. (2008) Genomic selection in New Zealand and the

implications for national genetic evaluation. Proceedings of the Interbull Meeting, 16–19 June

2008, Niagara Falls, Canada.

Hayes, B.J., Bowman, P.J., Chamberlain, A.J. and Goddard, M.E. (2009) Invited review:

Genomic selection in dairy cattle: Progress and challenges. Journal of Dairy Science,

92, 433–443.

Hayes, B.J., Goddard, M.E. and others (2001) Prediction of total genetic value using

genome-wide dense marker maps. Genetics, 157, 1819–1829.

Heffner, E.L., Sorrells, M.E. and Jannink, J.-L. (2009) Genomic Selection for Crop

Improvement. Crop Science, 49, 1.

Isik F, Whetten R, Zapata-Valenzuela J, Ogut F, McKeand S. (2011) Genomic selection

in loblolly pine – from lab to field. BMC Proceedings 5 (Suppl. 7): I8.

Jannink, J.-L., Lorenz, A.J. and Iwata, H. (2010) Genomic selection in plant breeding:

from theory to practice. Briefings in Functional Genomics, 9, 166–177.

Jha, G., Thakur, K. and Thakur, P. (2009) The Venturia Apple Pathosystem: Pathogenicity

Mechanisms and Plant Defense Responses. Journal of Biomedicine and

Biotechnology, 2009, 1–10.

Kumar, S., Bink, M.C.A.M., Volz, R.K., Bus, V.G.M. and Chagné, D. (2012) Towards

genomic selection in apple (Malus × domestica Borkh.) breeding programmes:

Prospects, challenges and strategies. Tree Genetics & Genomes, 8, 1–14.

Kumar, S., Chagné, D., Bink, M.C.A.M., Volz, R.K., Whitworth, C. and Carlisle, C. (2012) Genomic Selection for Fruit Quality Traits in Apple (Malus×domestica Borkh.)

T. Zhang, ed. PLoS ONE, 7, e36674.

Kumar, S., Volz, R. and Weskett, R. (2011) Genetic architecture of fruit quality traits in

Malus x domestica (Borkh.) compared between own-rooted seedlings and vegetative

propagules on “M. 9” rootstock. Tree Genetics & Genomes, 7, 1079–1088.

Lassois, L., Denancé, C., Ravon, E., et al. (2016) Genetic Diversity, Population Structure,

Parentage Analysis, and Construction of Core Collections in the French Apple

Germplasm Based on SSR Markers. Plant Molecular Biology Reporter. Available at:

http://link.springer.com/10.1007/s11105-015-0966-7 [Accessed June 14, 2016].

Leforestier, D., Localisation de régions du génome du pommier contrôlant la variation de

caractères de qualité du fruit et de résistance aux maladies : signatures de sélection et

génétique d’association. Thèse de doctorat, Angers, 2015, n°1478

Legarra, A., Robert-Granie, C., Manfredi, E. and Elsen, J.-M. (2008) Performance of

Genomic Selection in Mice. Genetics, 180, 611–618.

Meuwissen, T. H. E., Hayes, B.J., Goddard, M.E. (2001) Prediction of total genetic value

using genome-wide dense marker maps. Genetics, 157, 1819–1829.

Muranty, H., Troggio, M., Sadok, I.B., et al. (2015) Accuracy and responses of genomic

selection on key traits in apple breeding. Horticulture Research, 2, 15060.

Myles, S. (2013) Improving fruit and wine: what does genomics have to offer? Trends in

Genetics, 29, 190–196.

Nakaya, A. and Isobe, S.N. (2012) Will genomic selection be a practical method for plant

breeding? Annals of Botany, 110, 1303–1316.

R: A language and environment for statistical computing. R Foundation for Statistical

Computing, Vienna, Austria. URL: https://www.R-project.org/.

Rutkoski, J., Benson, J., Jia, Y., Brown-Guedira, G., Jannink, J.-L. and Sorrells, M. (2012) Evaluation of Genomic Prediction Methods for Fusarium Head Blight

Resistance in Wheat. The Plant Genome Journal, 5, 51.

Solberg, T.R., Sonesson, A.K., Woolliams, J.A. and Meuwissen, T.H.E. (2008) Genomic

selection using different marker types and densities. Journal of Animal Science, 86,

2447–2454.

Soufflet-Freslon, V., Résistance du pommier à la tavelure (Venturia inaequalis) : Recherche

de nouveaux loci et construction de génotypes « prototypes » en vue d’une gestion

durable de la résistance. Thèse de doctorat, Angers, 2008, n°910

VanRaden, P.M., Van Tassell, C.P., Wiggans, G.R., Sonstegard, T.S., Schnabel, R.D.,

Taylor, J.F. and Schenkel, F.S. (2009) Invited Review: Reliability of genomic

predictions for North American Holstein bulls. Journal of Dairy Science, 92, 16–24.

Velasco, R., Zharkikh, A., Affourtit, J., et al. (2010) The genome of the domesticated apple

(Malus × domestica Borkh.). Nature Genetics, 42, 833–839.

Wimmer, V., Albrecht, T., Auinger, H.J., and Schoen C.C. (2012) synbreed: a framework

for the analysis of genomic prediction data using R. Bioinformatics, 28: 2086-2087

Wong, C.K. and Bernardo, R. (2008) Genomewide selection in oil palm: increasing

selection gain per unit time and cost with small populations. Theoretical and Applied

Genetics, 116, 815–824.

Webographie :

www.fruitbreedomics.com [consulté le 09/06/2016]

Plan ecophyto II: http://agriculture.gouv.fr/sites/minagri/files/151022_ecophyto.pdf [consulté

le 20/05/2016]

http://www.fruitbreedomics.com/

http://agriculture.gouv.fr/sites/minagri/files/151022_ecophyto.pdf

Goascoz Anaïs, 2016. Evaluation de la sélection génomique pour la résistance à la

tavelure du pommier

Equipe ResPom, Institut de recherche en horticulture et semences, 42 rue Georges Morel - BP

60057, 49071 BEAUCOUZE CEDEX, France.

RESUME

La sélection génomique est une forme de sélection assistée par marqueurs où tous les

marqueurs couvrant tout le génome sont utilisés pour que tous les QTL soient en déséquilibre

de liaison avec au moins un marqueur et que potentiellement toute la variance génétique soit

expliquée. La sélection génomique estime des GEBV grâce à des modèles de prédiction

génomique. Durant ce stage, la sélection génomique a été évaluée pour des caractères de

résistance à la tavelure du pommier. Deux populations de pommiers, la population HiDRAS

composée de 13 familles de pleins-frères liées par le pedigree, et la core collection, étaient

phénotypées et génotypées. Les modèles de prédiction génomique BayesB, BayesA,

BayesCπ, BL et GBLUP ont été utilisés pour estimer l’efficacité de prédiction dans chacun

des deux populations. L’efficacité de prédiction des modèles pour les caractères de la

population HiDRAS a été élevée, entre 0.14 et 0.59, contrairement ce qui a été observé dans

la core collection où l'efficacité de prédiction variait entre 0.03 et 0.3. L’efficacité de

prédiction était influencée par la taille et la structure des populations, et le déséquilibre de

liaison entre les marqueurs et les QTL d’intérêt. En conclusion, la sélection génomique sera

une contribution positive dans la sélection de variétés de pommier présentant des caractères

de résistance à la tavelure.

Mots clés : Malus x domestica, Venturia inaequalis, sélection génomique

Goascoz Anaïs, 2016. Evaluation of genomic selection for apple scab resistance

Equipe ResPom, Institut de recherche en horticulture et semences, 42 rue Georges Morel - BP

60057, 49071 BEAUCOUZE CEDEX, France.

ABSRACT

Genomic selection is a form of marker-assisted selection in which genetic markers covering

the whole genome are used so that all QTL are in linkage disequilibrium with at least one

marker and potentially all the genetic variance can be explained . Genomic selection estimates

GEBV thanks to genomic prediction models. During this internship, genomic selection was

evaluated for apple scab resistance traits. Two apple populations, the HiDRAS population

comprising 13 pedigree-related full-sib families, and a core collection, were phenotyped and

genotyped. The BayesB, BayesA, BayesCπ, BL and GBLUP genomic prediction models were

used to estimate the accuracy of prediction of resistance traits in the two populations. Model

prediction efficiency for HiDRAS population traits were high, between 0.14 and 0.59, unlike

prediction efficiency in the core collection which varied between 0.03 and 0.3. Prediction

accuracy was influenced by population size and structure, and linkage disequilibrium between

markers and QTL of interest. In conclusion, genomic selection will be a positive input in

selection of apple varieties showing apple scab traits.

Key words : Malus x domestica, Venturia inaequalis, genomic selection