14
Les sauts technologiques qu’a connus la biologie lors des deux dernières décen- nies ont produit des quantités inédites de données. Alors que le séquençage du génome entier de l’Homme a demandé plusieurs années et mobilisé de nombreux laboratoires avec un coût extrêmement élevé (plusieurs millions d'euros), aujour- d’hui le même travail de séquençage hors assemblage ne demanderait que quelques jours à une équipe et à un coût modeste (bientôt de l’ordre du millier d’euros). Concernant les animaux d’élevage, ces avancées technologiques accroissent l’information génétique et génomique disponible et favorisent l’établissement de liens entre polymorphismes génétiques et variabilité phénotypique. Elles permet- tent également l’accès à d’autres niveaux de fonctionnement du vivant, en parti- culier le niveau moléculaire (génome, épigénome, transcriptome, protéome, métabolome…) dont les liens avec les phénotypes (encadré 1) apparaissent aujourd’hui plus étroits (Hocquette et al 2009, Monget et Le Bail 2009, Groth et al 2011). Paradoxalement, alors que les phéno- types sont utilisés depuis des siècles, en particulier à des fins de sélection géné- tique (de Rochambeau 2007), les réfé- rentiels définissant les caractères phéno- typiques des animaux d’élevage sont à la fois multiples et fragmentaires, malgré l’intérêt de la communauté internationale, représentée notamment par le groupe ICAR (« International Committee for Animal Recording » 1 ) qui produit régu- lièrement un document intitulé « Inter- national agreement of recording practi- ces » dans le cas des ruminants. Décrire de façon homogène, et si possible unique, l’ensemble des caractères, ou traits, phé- notypiques (encadré 1) sur lesquels reposent les phénotypes d’intérêt (en les mettant en relation avec des particularités génétiques dans une perspective inté- grative et prédictive), est l’un des enjeux actuels des sciences du vivant. Cet objec- tif nécessite que les caractères phéno- typiques soient clairement définis, nor- malisés, mesurés et référencés avec précision (Hocquette et al 2012). Parmi les outils de standardisation à notre disposition, les ontologies apparaissent pertinentes car elles permettent d’inté- grer des données de provenance ou de nature hétérogènes. Par exemple, « Gene Ontology » 2 permet de décrire de manière uniforme les produits des gènes de dif- férentes espèces et donc de faire des comparaisons entre gènes, voire entre INRA Productions Animales, 2014, numéro 3 INRA Prod. Anim., 2014, 27 (3), 195-208 P.-Y. LE BAIL 1 , J. BUGEON 1 , O. DAMERON 2 , A. FATET 3,4,5,6 , W. GOLIK 7 , J.-F. HOCQUETTE 8,9 , C. HURTAUD 10, 11 , I. HUE 12 , C. JONDREVILLE 13 , L. JORET 1 , M.-C. MEUNIER-SALAÜN 10,11 , J. VERNET 8,9 , C. NEDELLEC 7 , M. REICHSTADT 8,9 , P. CHEMINEAU 3,4,5,6 1 INRA, UR1037 LPGP, F-35000 Rennes, France 2 Université de Rennes 1, IRISA, Dyliss team, F-35000 Rennes, France 3 INRA, UMR85 PRC, F-37380 Nouzilly, France 4 CNRS, UMR7247, F-37380 Nouzilly, France 5 Université François Rabelais de Tours, F-37000 Tours, France 6 IFCE, F-37380 Nouzilly, France 7 INRA, UR1077 MIG, F-78352 Jouy-en-Josas, France 8 INRA, UMR1213 Herbivores, F-63122 Saint-Genès-Champanelle, France 9 Clermont Université, VetAgro Sup, UMR 1213 Herbivores, BP 10448, F-63000 Clermont-Ferrand, France 10 INRA, Agrocampus Ouest, UMR1348 PEGASE, F-35590 Saint-Gilles, France 11 Agrocampus Ouest, UMR1348 PEGASE, F-35000 Rennes, France 12 INRA, UMR1198 BDR, F-78352 Jouy-en-Josas, France 13 INRA, Université de Lorraine, USC340 AFPA, F-54500 Vandœuvre-lès-Nancy, France Courriel : [email protected] Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL Depuis l’avènement des technologies à haut débit, la quantité d’informations disponibles sur les génomes et les performances zootechniques des animaux d’élevage, via les bases de données et les articles scientifiques, a explosé. Sans un langage de référence pour décrire ces productions, l’accès pertinent aux informations publiées et le partage effectif des données resteront partiels et imprécis, rendant impossible leur réutilisation pour d’autres analyses, y compris les plus globalisantes qui visent à l’amélioration des performances animales par la sélection génomique et les conduites d’élevage de demain. 1 http://www.icar.org/ 2 http://www.geneontology.org/

Un langage de référence pour le phénotypage des animaux d'élevage

  • Upload
    buidan

  • View
    219

  • Download
    1

Embed Size (px)

Citation preview

Les sauts technologiques qu’a connusla biologie lors des deux dernières décen-nies ont produit des quantités inéditesde données. Alors que le séquençage dugénome entier de l’Homme a demandéplusieurs années et mobilisé de nombreuxlaboratoires avec un coût extrêmementélevé (plusieurs millions d'euros), aujour-d’hui le même travail de séquençage horsassemblage ne demanderait que quelquesjours à une équipe et à un coût modeste(bientôt de l’ordre du millier d’euros).Concernant les animaux d’élevage, cesavancées technologiques accroissentl’information génétique et génomiquedisponible et favorisent l’établissement deliens entre polymorphismes génétiqueset variabilité phénotypique. Elles permet-tent également l’accès à d’autres niveauxde fonctionnement du vivant, en parti-culier le niveau moléculaire (génome,

épigénome, transcriptome, protéome,métabolome…) dont les liens avec lesphénotypes (encadré 1) apparaissentaujourd’hui plus étroits (Hocquette et al2009, Monget et Le Bail 2009, Groth etal 2011).

Paradoxalement, alors que les phéno-types sont utilisés depuis des siècles, enparticulier à des fins de sélection géné-tique (de Rochambeau 2007), les réfé-rentiels définissant les caractères phéno-typiques des animaux d’élevage sont àla fois multiples et fragmentaires, malgrél’intérêt de la communauté internationale,représentée notamment par le groupeICAR (« International Committee forAnimal Recording »1) qui produit régu-lièrement un document intitulé « Inter-national agreement of recording practi-ces » dans le cas des ruminants. Décrire

de façon homogène, et si possible unique,l’ensemble des caractères, ou traits, phé-notypiques (encadré 1) sur lesquelsreposent les phénotypes d’intérêt (en lesmettant en relation avec des particularitésgénétiques dans une perspective inté-grative et prédictive), est l’un des enjeuxactuels des sciences du vivant. Cet objec-tif nécessite que les caractères phéno-typiques soient clairement définis, nor-malisés, mesurés et référencés avecprécision (Hocquette et al 2012). Parmiles outils de standardisation à notredisposition, les ontologies apparaissentpertinentes car elles permettent d’inté-grer des données de provenance ou denature hétérogènes. Par exemple, « GeneOntology »2 permet de décrire de manièreuniforme les produits des gènes de dif-férentes espèces et donc de faire descomparaisons entre gènes, voire entre

INRA Productions Animales, 2014, numéro 3

INRA Prod. Anim.,2014, 27 (3), 195-208

P.-Y. LE BAIL1, J. BUGEON1, O. DAMERON2, A. FATET3,4,5,6, W. GOLIK7, J.-F. HOCQUETTE8,9, C. HURTAUD10, 11, I. HUE12, C. JONDREVILLE13, L. JORET1, M.-C. MEUNIER-SALAÜN 10,11,

J. VERNET 8,9, C. NEDELLEC7, M. REICHSTADT 8,9, P. CHEMINEAU 3,4,5,6

1 INRA, UR1037 LPGP, F-35000 Rennes, France2 Université de Rennes 1, IRISA, Dyliss team, F-35000 Rennes, France

3 INRA, UMR85 PRC, F-37380 Nouzilly, France4 CNRS, UMR7247, F-37380 Nouzilly, France

5 Université François Rabelais de Tours, F-37000 Tours, France6 IFCE, F-37380 Nouzilly, France

7 INRA, UR1077 MIG, F-78352 Jouy-en-Josas, France8 INRA, UMR1213 Herbivores, F-63122 Saint-Genès-Champanelle, France

9 Clermont Université, VetAgro Sup, UMR 1213 Herbivores, BP 10448, F-63000 Clermont-Ferrand, France 10 INRA, Agrocampus Ouest, UMR1348 PEGASE, F-35590 Saint-Gilles, France

11 Agrocampus Ouest, UMR1348 PEGASE, F-35000 Rennes, France 12 INRA, UMR1198 BDR, F-78352 Jouy-en-Josas, France

13 INRA, Université de Lorraine, USC340 AFPA, F-54500 Vandœuvre-lès-Nancy, FranceCourriel : [email protected]

Un langage de référence pour lephénotypage des animaux d’élevage :l’ontologie ATOL

Depuis l’avènement des technologies à haut débit, la quantité d’informations disponibles sur lesgénomes et les performances zootechniques des animaux d’élevage, via les bases de données etles articles scientifiques, a explosé. Sans un langage de référence pour décrire ces productions,l’accès pertinent aux informations publiées et le partage effectif des données resteront partielset imprécis, rendant impossible leur réutilisation pour d’autres analyses, y compris les plusglobalisantes qui visent à l’amélioration des performances animales par la sélection génomiqueet les conduites d’élevage de demain.

1 http://www.icar.org/2 http://www.geneontology.org/

espèces. De plus, la structure de « GeneOntology » rend possible la caractérisa-tion et l’optimisation de listes de gènesen faisant ressortir les fonctions parta-gées par ces gènes.

Concernant l’« Animal Trait Ontologyfor Livestock » (ATOL) développée àl’Inra, l’objectif est ici de présenter l’éla-boration, la structure et les performancesde cette ontologie dédiée aux caractèresphénotypiques des animaux d’élevage.

1 / Un référentiel des caractè-res phénotypiques : pourquoiet pour qui ?

1.1 / Un référentiel pour mieuxpartager

a) Rendre compatible les bases de donnéestraitant de concepts similaires

La mise en relation des bases dedonnées (génétiques, phénotypiques…)pour l’ensemble du vivant, grâce à unseul et même outil, est aujourd’hui horsde portée en raison de la multiplicité desespèces, des niveaux biologiques étudiés,des évolutions des phénotypes dans letemps et l’espace, mais aussi des limitesde nos connaissances. Par réalisme, nousdevons limiter nos ambitions intégrativesaux enjeux de chaque domaine d’appli-cation, un outil plus ciblé étant plus effi-cace et plus facile à maintenir dans le

temps. Pour les filières animales (mam-mifères, volailles, poissons), il s’agirade cerner le périmètre des caractèrespermettant de maîtriser les productions(viande, lait, œuf…), la qualité des pro-duits (sanitaire, nutritionnelle, sensoriel-le) et de respecter les attentes sociétalesdans le domaine de l’environnement(rejets azotés, gaz à effet de serre…) ou dubien-être (faible perturbation de l’animaldans son environnement d’élevage).

De plus, les données relatives auxcaractères phénotypiques de productionanimale sont hétérogènes, multiples,voire redondantes. Il existe ainsi dansdifférents centres de recherches, voireau sein d'un même centre de recherches,de nombreuses bases comportant desinformations similaires, mais partageantrarement la même structure, proposantrarement des passerelles vers des basessemblables ou vers d’autres types debases recensant des données acquises àun autre niveau biologique. Il arrive aussisouvent qu’un même nom de caractèrene recouvre pas exactement la mêmedéfinition selon les auteurs, les espèces oules protocoles de mesure. Par exemple,si deux bases de données ont commechamps respectifs « masse » et « poids »pour caractériser le poids d’un animal, ilest impossible de déterminer automati-quement si ces données sont équivalen-tes, ont la même unité et peuvent êtrecomparables. Si chacune de ces basesde données convient bien à une utili-sation locale spécifique, la dénomina-

tion distincte des champs « poids » et« masse » limite la possibilité de lesintégrer dans des bases plus étenduespour les partager, les comparer, lescombiner ou les utiliser dans un autrecontexte.

Pour résoudre ces problèmes de com-patibilité entre bases, la solution clas-sique consiste à annoter les données enutilisant un référentiel commun sous laforme de métadonnées (Corcho 2006).Dans l’exemple précédent, cela revien-drait à identifier que le champ « poids »de la première table représente le mêmeconcept que le champ « masse » de laseconde. Idéalement, un seul et mêmeterme standard pourrait ainsi être uni-versellement référencé. Dans la pra-tique, le plus souple et le plus efficaceest de s'accorder sur un terme préféré(par exemple « masse ») et d’annoter tou-tes les données des deux champs avec cemême terme sans remettre en cause lastructure des bases. Une telle approche,déjà utilisée dans le domaine biomédical(Bodenreider et Stevens 2006, Ciminoet Zhu 2006) ou dans celui de la géno-mique (Blake et Bult 2006), a été tentéedans le domaine de la qualité de la viandebovine. Cependant, elle s’est avérée dif-ficile à mettre en pratique pour la réali-sation de méta-analyses3 (Hocquette etal 2011). C’est pourquoi d’autres commu-nautés (comme le « Beef CooperativeResearch Center » en Australie) ont pré-féré définir dès le départ des méthodesstandards d’appréciation de la qualité dela viande (Watson et al 2008), plus per-tinentes sur la durée que l’utilisation desmétadonnées.

b) Un référentiel commun organiséhiérarchiquement : un plus

Au regard des enjeux précédents, ildevient important de pouvoir interrogeret comparer des observations issues dediverses expériences, éventuellementstockées dans des bases de données dif-férentes. Dans une certaine mesure, celapeut concerner aussi le partage d’infor-mations relatives à un caractère phéno-typique particulier, commun à différentesespèces animales. En plus de l’analyseautomatique et facilitée de données d’ori-gines variées, un tel système a intrinsè-quement une valeur pédagogique, per-mettant à l’utilisateur de consulter lescaractères phénotypiques spécifiquementliés à telle production animale, voire decomprendre leur élaboration.

Pour être robuste, le système envisagédoit à la fois i) fournir un référentielcommun à plusieurs sources de données,quelle que soit leur provenance et ii)permettre le traitement de données dont

196 / P.-Y. LE BAIL et al

INRA Productions Animales, 2014, numéro 3

Encadré 1. Phénome, phénotype, caractère phénotypique.

Le « phénome » d’un individu est l'ensemble des « caractères phénotypiques » (ou traitsphénotypiques) observables (aux niveaux éthologique, morphologique, anatomique,physiologique, moléculaire) qui le caractérisent (couleur des yeux, des cheveux, taille maxi-male...). Par exemple, au caractère phénotypique « couleur des yeux » peut correspondrel’état de « phénotype » « bleu ». Dans ce cas, le phénotype est régi par un déterminismegénétique simple. La couleur des yeux est un caractère phénotypique discret (ou discontinu)puisqu’il présente un nombre de phénotypes limité (bleu, marron, vert…), contrairementà la taille d’un individu (caractère continu) qui varie de manière continue au sein d’un inter-valle compris entre une valeur minimale et une valeur maximale. De manière générale, unmême phénotype peut dépendre de l’expression de plusieurs gènes et de leurs interactions.Il est donc la résultante de l’expression du génotype modulée ou non par le milieu environnant.C’est par exemple le cas de la croissance d’un animal qui dépend de paramètres physiolo-giques intrinsèques (systèmes hormonaux, capacité digestive…), mais aussi des conditionsd’élevage et du milieu ambiant (alimentation, exercice, température, interactions entre indi-vidus, niveau de stress, pathologie…). L’observation directe et simple des phénotypes afavorisé leur large utilisation par les physiologistes dans l’étude des fonctions biologiques etpar les généticiens dans leurs programmes de sélection, par exemple avec le caractère« culard » de certains bovins qui correspond à une hypertrophie musculaire. Mais les phé-notypes peuvent porter sur des caractères moins « visibles » comme la structure du mus-cle (nombre de fibres musculaires, surface de tissus adipeux…) afin d’améliorer la qualitéde la viande (Hocquette et al 2006) et nécessiter une investigation plus invasive comme labiopsie ou la dissection. Enfin, pour rendre certains phénotypes plus pertinents, il est utilede les standardiser (caractère phénotypique dit « complexe » ou « calculé ») en les expri-mant comme une fonction mathématique plus ou moins complexe de caractères simples(par exemple, le poids d’un organe peut être exprimé en % du poids du corps). Aujourd’hui,un caractère phénotypique peut être le caractère d’intérêt lui-même, un bio-marqueur (ouindicateur) qui lui est corrélé, ou un effecteur qui le contrôle.

3 Une méta-analyse est une analyse statistique combinant les résultats de plusieurs études indépendantes autour d’un problème donné.

les degrés de précision diffèrent. Dansle premier cas, il s’agit de désigner lescaractères phénotypiques de façon norma-lisée à l’aide d'un vocabulaire contrôlé ;dans le second, le référentiel - structurépar des relations entre certains caractères -permet d’automatiser la prise en comptede niveaux de granularité différentset les raisonnements qui en découlent.Par exemple, cela permet de déterminerqu’une base contenant des mesures rela-tives au caractère « contenu en acidesgras des tissus adipeux » est pertinentepour une requête plus globale concernantl’ensemble des caractères relatifs aux« contenu en lipides des tissus adipeux ».

1.2 / Les ontologies comme réfé-rentiels

a) Comment est structurée une ontologie et selon quel format ?

Bard et Rhee (2004) définissent lesontologies comme une « façon formellede représenter des connaissances endécrivant les concepts à la fois par leursens et les relations qui les lient ». Lesconnaissances décrites, de manière pré-cise et univoque, et formalisées dans uneontologie permettent ainsi l’interpréta-tion automatique de données d’intérêten exploitant des relations qui autrementne seraient qu’implicites. En pratique,les ontologies sont principalement cons-tituées de classes (ou « concepts » ou« types »), de relations (ou propriétés),éventuellement de règles de raison-nement. L’utilisation des classes et despropriétés pour décrire les données sefait via leur identifiant.

Par exemple, l’identifiant ATOL:0000350 correspond au concept « bodyheight », et ATOL:0000093 correspondà « body weight ». Comme tous deuxsont des sous-classes d’ATOL:0000855(« growth trait »), cela permet à un sys-tème exploitant les ontologies de traiterdes données avec différents niveaux deprécision. Enfin, puisque chaque identi-fiant spécifie l'ontologie à laquelle appar-tient le concept (ici « ATOL: »), cettestructuration rend possible la combinai-son de plusieurs ontologies pour décrireles données plus finement et sans ambi-guïté.

Il existe deux principaux formats dereprésentation des ontologies : - OBO (« Open Biomedical Ontology ») a

été créée pour représenter « Gene

Ontology » avant sa réutilisation pourd’autres ontologies ;

- OWL (« Web Ontology Language »),issu du Web Sémantique, est pluspuissant et expressif qu’OBO maisplus difficile à mettre en œuvre.

La distinction entre les deux formatsn’est pas toujours claire car ils possè-dent une base commune. La plupart desontologies au format OWL n’exploitentpas pleinement ses spécificités et peu-vent donc être converties sans perted’information au format OBO. Enfin,des initiatives comme « OBOFoundry »et « BioPortal » constituent des entrepôtspermettant de centraliser les ontologies,« BioPortal »4 permettant en plus de lesinterroger de manière globale.

b) Les ontologies existantes pour phéno-typer le monde animal

Parmi les nombreuses ontologies exis-tantes, seules quelques ontologies dephénotypes animaux étaient disponiblesou en cours de développement quand leprojet ATOL a été initié :- « Mammalian Phenotype Ontology »

(MPO)5 décrit les phénotypes de plu-sieurs mammifères dans le contexted'études de mutations et/ou de QTL(Locus de caractères quantitatifs) impli-qués dans des modèles biologiques (sou-ris, rat) et/ou des pathologies humaines(Smith et al 2005) ;

- L’ontologie « Human PhenotypeOntology » (HPO)6 ne décrit, quant àelle, que des phénotypes de patholo-gies humaines (Robinson et Mundlos2010). Elle sert à annoter des donnéespour les réutiliser dans un contexte dediagnostic clinique ou d’analyse d’ex-pression génétique associée à desmaladies humaines ;

- L’ontologie « Phenotypic qualityontology » (PATO)7 est une ontologiedes qualificatifs des phénotypes (parexemple « rouge » pour décrire la cou-leur des yeux). Il ne s’agit donc pasd’une ontologie des caractères phéno-typiques.

Il existait aussi des ontologies spéci-fiques décrivant l’anatomie d’espècescomme « Zebrafish Anatomical Ontology »(ZAO)8 ou à dimension plus large comme« Vertebrate Skeletal Anatomy Ontology »(VSAO)9.

Malgré leur intérêt pour la rechercheanimale, aucune de ces ontologies opé-

rationnelles ne répondait aux attentesdes acteurs des productions animales(Mungall et al 2010), mises à partquelques bases de caractères documen-tant une seule fonction, souvent limitéesà un modèle animal, comme STORE-FISH pour la reproduction des poissons(Teletchea et al 2007) ou PigQTLdb pourla génétique porcine, où seuls les carac-tères phénotypiques en relation avec unQTL étaient répertoriés (Hu et al 2005).

1.3 / Quels besoins pour les pro-ductions animales ?

La direction du département PHASE(Physiologie Animale et Systèmes d’Ele-vage) de l’Inra s’était fixée commeobjectif de développer un référentiel descaractères phénotypiques dédié aux ani-maux de rente pour encourager unerecherche intégrative sur l’animal au seinde l’Inra. Ce référentiel devait répondreà un cahier des charges visant à favoriseri) l’établissement de relations précisesentre phénotype et génotype, commepar exemple associer un phénotype à unallèle10 ou une combinaison d’allèles ;ii) le repérage au cours de l’évolution deconstantes fonctionnelles au sein degroupes de gènes afin d’en tirer des règlesgénérales chez les vertébrés ; iii) ledéveloppement d’outils de modélisationet de prédiction de phénotypes, et desperformances associées, en fonction desconduites d’élevage et iv) la constructionde modèles in silico mimant la physio-logie cellulaire et animale.

Pour l’Inra et ses partenaires profes-sionnels, les phénotypes d’intérêt sontceux qui permettent, à terme, de com-prendre et d’orienter les pratiques d’éle-vage et la sélection animale dans uncontexte de durabilité : produire mieux(en quantité et qualité) en respectantl’environnement et le bien-être animal.Ainsi, cette ontologie favorisera la miseen place d’un langage commun entrezootechniciens, physiologistes et géné-ticiens, facilitera les projets collabora-tifs entre disciplines et/ou modèles ani-maux différents, rendra les informationspartageables par l’utilisation des carac-tères référencés dans les publications etles bases de données. Par ailleurs, cetteontologie pourra servir de support péda-gogique dans le domaine des produc-tions animales. Le référentiel recherchédevra donc prendre la forme d’une onto-logie des caractères phénotypiques, danslaquelle le choix des caractères sera

Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL / 197

INRA Productions Animales, 2014, numéro 3

4 http://bioportal.bioontology.org/5 http://www.informatics.jax.org/searches/MP_form.shtml6 http://www.human-phenotype-ontology.org/7 http://obofoundry.org/wiki/index.php/PATO:Main_Page8 http://zfin.org/action/ontology/ontology-search9 http://bioportal.bioontology.org/ontologies/VSAO?p=classes10 Allèle : une des différentes versions d’un même gène à un même locus

198 / P.-Y. LE BAIL et al

dédié à la communauté travaillant surles animaux d’élevage.

Une autre ambition était de construireune ontologie qui soit reconnue et parta-gée internationalement comme la réfé-rence dans le domaine des animaux d’é-levage, avec comme corollaire, la possi-bilité de réutiliser l’ensemble des don-nées publiées au niveau international dansle cadre de méta-analyses notamment.Plutôt que de développer un outil endo-gène risquant de n’intéresser que lacommunauté nationale, la partie fran-çaise s’est associée au projet ATO pour« Animal Trait Ontology » en dévelop-pement à l’ISU (« Iowa State University »)(Hughes et al 2008), sous les auspices del’USDA- « National Animal Genome »,qui visait des objectifs similaires. Ainsi,dès sa genèse, le projet s’est inscrit dansun cadre international en faisant recon-naître les spécificités des produits issusde l’élevage français. En plus de l’ISUet de l’Inra, en relation avec ses parte-naires d’Agreenium, le consortium duprojet ATO incluait le « Rat GenomeDatabase » (RGD)11 et le « MouseGenome Informatics » (MGI)12, deuxconsortiums américains ayant une finalité

« santé humaine » et regroupant eux-mêmes diverses bases de données dédiéesà ces deux espèces. Des partenaires euro-péens, en particulier ceux du WUR(« Wageningen University and Research »,Pays Bas)13, au travers de contrats avecl’Union Européenne comme EADGENE(« European Animal Disease GenomicsNetwork of Excellence »)14 pour la santéanimale ou - dans une moindre mesure -SABRE (« Cutting Edge Genomics forSustainable Animal Breeding ») pour lareproduction bovine, ont également par-ticipé à ATO. Des représentants des filièresanimales comme l’EFFAB (« EuropeanForum of Farm Animal Breeders »)15 ontégalement montré leur intérêt pour un telprojet. Par la suite, le renforcement del’ontologie pour la pisciculture s’estappuyé sur le réseau AQUAEXCEL16, unprojet « Research Infrastructure » de l’UnionEuropéenne regroupant 17 partenaires de10 pays différents, et visant notammentà la standardisation des caractères phéno-typiques et de leurs mesures au sein desinfrastructures aquacoles européennes.

Pour l’ensemble des partenaires, l’on-tologie des caractères phénotypiquesdevait être la plus générique possible

car devant couvrir des modèles de ver-tébrés très différents. Cette démarcheétait envisageable car nombre de fonc-tions et de régulations sont partagées ausein des vertébrés, même si des diver-gences très importantes sont observées auniveau de la morphologie (pattes/ailes/nageoires, par exemple), du mode dereproduction (ovipare/vivipare) ou dumilieu de vie (aquatique/terrestre). Cetteapproche se situait donc en rupture avecles référentiels existants qui s’adressaientà une seule espèce, ou à un grouped’espèces phylogénétiquement proches,entraînant la multiplication de caractè-res phénotypiques identiques et en limi-tant l’interopérabilité. Elle permettaitaussi d’envisager la compréhensiongénérique des mécanismes communsimpliqués dans la construction de cer-tains phénotypes. Si, pour l’Inra, l’onto-logie devait concerner essentiellementles espèces d’élevage (bovins, ovins,porcins, volailles, poissons d’élevage…),elle n’excluait pas les espèces modèles(souris, rat, poissons zèbre, médaka…)faciles et peu coûteuses à élever, lors-qu’elles étaient pertinentes pour étudierles mécanismes d’élaboration des phéno-types intéressant l’élevage.

INRA Productions Animales, 2014, numéro 3

Figure 1. Structure du réseau d’experts impliqués dans la construction d’ATOL.

AQUAEXCEL : Réseau européen d’infrastructure aquacole d’excellence (FP7) ; CEPIA : Département de Caractérisation etElaboration des Produits Issus de l’Agriculture de l’INRA ; GA : Département de Génétique Animale de l’INRA ; ISU : « IowaState University » ; MGI : « Mouse Genome Informatics » consortium ; MIA : Département de Mathématiques et InformatiqueAppliquées de l’INRA ; PHASE : Département de Physiologie Animale et Système d’Elevage de l’INRA ; RGD : « Rat GenomeDatabase » consortium ; VT : « Vertebrate Trait ontology ».

11 http://rgd.mcw.edu/12 http://www.informatics.jax.org/13 http://www.wageningenur.nl/en.htm14 http://www.eadgene.info/15 http://www.effab.org16 http://www.aquaexcel.eu/

2 / La méthode suivie pourconstruire ATOL

2.1 / Mise en place d’un réseaud’experts

Les orientations et les finalités du pro-jet ATOL ont été définies par un comitéde pilotage regroupant des représentantsdes structures de recherche en physiolo-gie et génétique animale de l’Inra. Ledéveloppement et la structuration de labase ont été confiés à un groupe de tra-vail composé d’un animateur, d’un experten ontologie dans le domaine de la santéhumaine, et de cinq « curateurs ».

Les curateurs ont été chargés de lacollecte, de la validation, de la définitiondes caractères phénotypiques et de leurorganisation hiérarchique, avant leurintroduction dans ATOL. Leurs compé-tences couvraient la croissance et laqualité de la chair, la nutrition et l’alimen-tation, la mamelle et le lait, la reproduc-tion et la fertilité, le stress et et le bien-être animal et secondairement la pro-duction d’œufs et le foie gras (figure 1).Une cinquantaine d’experts, essentielle-ment issus de l’Inra, ont également étémobilisés par sous-groupes thématiquesdans des réunions présentielles ou télé-phoniques, comme force de propositionet de validation. Les experts ont étéchoisis en croisant leurs fonctions d’in-térêt, leurs disciplines scientifiques et lesdifférentes espèces d’élevage. Enfin, uneéquipe Inra spécialisée en terminologie,a rejoint le groupe pour compléter l’on-tologie par une analyse sémantique dedocuments. L’ensemble de ce travail aété effectué en étroite connexion avecl’ISU afin de rendre l’ontologie ATOLcompatible et complémentaire de l’onto-logie VT (« Vertebrate Trait ontology »17,Park et al 2013) que les chercheurs decette université développaient au seindu projet ATO.

2.2 / Choix du périmètre d’ATOL

Dans la commande initiale, chaquecaractère phénotypique devait être définitrès précisément, en intégrant les facteursenvironnementaux et les techniques demesure, afin que la variation résiduelledu phénotype observé ne dépende plusque de la variabilité génétique. Cet objec-tif est apparu rapidement irréaliste. Eneffet, la combinaison de chaque caractèrephénotypique avec la multitude de situa-tions environnementales et de méthodesde mesure aurait conduit à la créationd’un nombre considérable de conceptsdifficiles à générer et surtout très peuopérationnels. Nous avons donc posé

l’hypothèse, partagée avec nos partenai-res de l’ontologie VT (Shimoyama et al2013), qu’un phénotype (hors fond géné-tique) pouvait être décrit à partir de 3concepts (figure 2) : le caractère phéno-typique (le caractère qui est mesuré),l’environnement dans lequel l’animalest élevé, et la méthodologie/techniqueemployée pour mesurer le phénotype.Les deux premiers domaines conceptuelspeuvent être définis dans le cadre d’on-tologies, à savoir respectivement ATOLet EOL (« Environment Ontology forLivestock » pour Ontologie de l’Environ-nement des animaux d’élevage), cettedernière n’étant pas traitée dans le cadrede cet article.

Concernant le troisième domaineconceptuel, les méthodologies de mesured’un caractère phénotypique particulierpeuvent être très nombreuses et en cons-tante évolution. Il est donc utopiqued’imaginer imposer une seule techniquede référence à l’ensemble de la commu-nauté œuvrant dans un même domainePar exemple, pour mesurer la concen-tration sanguine en testostérone chez unveau, différents principes méthodolo-giques sont envisageables (chromato-graphie, spectroscopie, dosage immu-nologique…), mais au sein d’un mêmeprincipe méthodologique (dosage immu-nologique par exemple) plusieurs tech-niques peuvent être déclinées (DosageRadio-Immunologique (RIA) ou Immuno-Enzymatique (EIA), par exemple). Enfin,au sein d’une même technique (RIA, parexemple), les valeurs absolues mesuréesdépendent de la procédure utilisée (volume de l’échantillon, extraction ounon de la molécule recherchée depuis lefluide vital, temps et température d’in-

cubation…) et des réactifs (activité spé-cifique du traceur radioactif, nature etlot des anticorps, pureté des réactifs,qualité du standard de référence…). Cesdifférentes techniques peuvent doncconduire à des valeurs différentes du phé-notype mesuré. Il nous a donc paru perti-nent de nous référer à une base de proto-coles méthodologiques référencés − qu’ilreste à créer − à partir de laquelle des nor-malisations seront envisagées, dans lecadre d’analyses de données issues deméthodologies multiples.

2.3 / La démarche mise en œuvrepour construire ATOL

Dès le début de la réflexion avec nospartenaires américains, nous avonsconstaté que nos objectifs divergeaientpartiellement. Si l’aspiration première àdisposer d’une ontologie des caractèresphénotypiques applicable aux vertébrésétait partagée, nos partenaires améri-cains voulaient l’organiser de manièreacadémique (par fonction, organe, régu-lateur…) et ne prendre en compte queles caractères directement mesurables(taille, poids des gonades, pression arté-rielle…). Pour sa part, l’Inra voulaitdisposer d’une ontologie orientée versles productions animales prenant encompte la qualité des produits mais aussiles caractères « calculés », ou « com-plexes », couramment utilisés dans sesprogrammes de recherche (taux decroissance, rapport gonado-somatique,% de refus alimentaires…). D’un com-mun accord, la démarche choisie a doncété de créer deux ontologies distinctes(VT et ATOL) tout en co-construisantles caractères d’intérêt commun (figure3).

Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL / 199

INRA Productions Animales, 2014, numéro 3

Figure 2. Les domaines conceptuels requis pour construire un phénotype (génotypemis à part).

17 http://purl.bioontology.org/ontology/VT

ATOL a été développée en six principa-les étapes. Dans un premier temps, nousavons procédé à une extraction automa-tique des branches18 de VT (version du06/02/2009) potentiellement pertinentespour ATOL (caractères en lien avec lesdifférentes productions animales). Dansun deuxième temps, et au sein de cesbranches, les curateurs – avec l’aide deleurs experts – n'ont retenu que les carac-tères jugés pertinents, c’est-à-dire ceuxexpliquant pour partie la construction desphénotypes d’intérêt. Dans un troisièmetemps, les curateurs ont structuré ATOLen créant une hiérarchie orientée versles productions animales (qualité/quan-tité) et le bien-être animal, et en cherchantà respecter le plus possible les niveauxd’intégration (molécule, cellule, tissu,organe, organisme…). Dans un quatrièmetemps, et pour chaque espèce animale, lahiérarchie et la liste des caractères avecleur définition ont été amendées et vali-dées par le réseau d’experts. Dans un cin-quième temps, les experts ont enrichiATOL en proposant de nouveaux carac-tères phénotypiques. Dans un sixièmetemps, ATOL a été enrichie de nouveauxconcepts et de nouveaux synonymes, àl’aide d’une analyse sémantique d’articles.

Dans la réalité, le processus a été moinsséquentiel que présenté ci-dessus, il a faitappel à de nombreuses itérations entretravail des curateurs, des experts et apportde l’analyse sémantique (figure 4).Depuis la première extraction à partir deVT jusqu’à la mise en ligne de la pre-mière version d’ATOL, le processus apris environ 3 ans, dépendant très forte-ment de la disponibilité des curateurs,des experts et du recrutement d’une per-sonne sous contrat, entièrement dédiéeau projet. Enfin, chacune des étapes aété menée en s’appuyant sur un certainnombre d’outils informatiques dont lerôle est présenté dans l’encadré 2.

3 / Les caractéristiques d’ATOL

3.1 / Evolution du nombre decaractères d’ATOL au cours desa construction

a) Les caractères pertinents extraits de VT

La version du 06/02/2009 de VT com-portait 4 182 termes, parmi lesquels3 692 (88%) avaient une définition. Lescurateurs ont sélectionné des branchespotentiellement intéressantes pour untotal de 1 625 caractères qu’ils ont sou-mis à leurs experts respectifs pour vali-dation en tant que caractère « pertinent »,« pertinent mais à modifier » ou encore« non pertinent ». A l’issue de cettephase, les caractères retenus dans ATOL(tableau 1) s’élevaient à 1 057, soit une

200 / P.-Y. LE BAIL et al

INRA Productions Animales, 2014, numéro 3

Figure 3. Modalité du partage des caractères phénotypiques entre les ontologiesATOL et VT.

18 Branches : premier niveau de l’arborescence de l’ontologie

Traits agronomiques simples : caractères phénotypiques d’intérêt pour les productions anima-les mesurés directement sur l’animal (exemple : poids vif de l’animal).Traits académiques simples : caractères phénotypiques d’intérêt pour la recherche acadé-mique seule et mesurés directement sur l’animal (exemple : morphologie du muscle lisse).Traits agronomiques complexes : caractères phénotypiques d’intérêt pour les productions ani-males exprimés comme une fonction mathématique plus ou moins complexe de caractèresphénotypiques simples (exemple : le poids d’un organe peut être exprimé en % du poids ducorps).MGI : « Mouse Genome Informatics » ; RGD : « Rat Genome Database »

Figure 4. Schéma récapitulatif des grandes étapes de la construction de l’ontologie ATOL.

VT ontology : « Vertebrate Trait ontology » ; Trait : caractère phénotypique.

Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL / 201

INRA Productions Animales, 2014, numéro 3

Encadré 2. Les outils informatiques mobilisés pour la construction de l’ontologie ATOL.

Au cours des différentes étapes qui ont été suivies pour construire ATOL (« Animal Trait Ontology for Livestock »), plusieurs logiciels infor-matiques ont été utilisés pour faciliter le traitement en masse d’information ou pour rendre plus conviviale l’utilisation de l’ontologie.

L’étape d'extraction automatique des parties potentiellement pertinentes de l’ontologie VT (« Vertebrate ontology ») a été menée avecl’éditeur d’ontologie OBO-Edit(1) et avec des scripts écrits en langage de programmation Python. Chaque groupe d'experts, supervisé par uncurateur, sélectionnait dans VT les caractères potentiellement intéressants. Les scripts Python récupéraient alors dans VT les propriétés deces caractères (notamment les définitions textuelles) ainsi que leurs caractères parents(2) et enfants(3), organisant le tout en grandesbranches thématiques, exportées en format Excel facilement utilisable par les experts.

La hiérarchie d’ATOL a été structurée pour les productions animales (dans un premier temps : Production laitière, Production de viande,Nutrition animale, Reproduction ; dans un second temps : Production de foie gras, Production d’œufs) et le bien-être animal en s’appuyantau maximum sur les niveaux d’intégration (molécule, cellule, tissu, organe, organisme…). Cette phase de sélection et d’organisation, quireposait donc sur les compétences des experts pour le contenu, et celles des curateurs pour la structuration, a nécessité de nombreusesinteractions - simultanées, en réseau - sur une même version de l’ontologie. Pour ces raisons, mais aussi pour pallier aux limites d'OBO-Edit,nous avons retenu ensuite l'éditeur d’ontologie Protégé(4) et son environnement collaboratif Collaborative Protégé(5).

La phase d’enrichissement sémantique a consisté à compléter ATOL avec des termes pertinents, extraits de corpus d’articles scienti-fiques par l’extracteur de termes BioYaTeA(6) (Golik et al 2013). Par exemple, à partir du texte « methods to enhance milk fat yield andimprove the fatty acid profile of milk fat » (Elek et al 2008), l’outil BioYaTeA a extrait les cinq termes « methods », « milk fat yield », « fattyacid profile », « milk fat » et « fatty acid profile of milk fat ». Les trois termes soulignés sont pertinents pour ATOL, alors que « methods »et « milk fat » ne le sont pas. L'outil informatique FastR (Jacquemin 1999) a ensuite été appliqué au même corpus pour relier des syno-nymes à ces 3 termes et en découvrir de nouveaux. FastR utilise des règles de variation linguistique, morphosyntaxiques et sémantiquespour calculer de nouveaux termes à partir des termes d'ATOL. Le thésaurus généraliste WordNet (Miller et al 1990) fournit des classesde synonymes qui ont été utilisées par FastR pour générer des synonymes ATOL plus complexes. Par exemple, FastR propose le terme« water intake » comme synonyme du terme « water consumption » grâce à la synonymie entre « intake » et « consumption » définie parWordNet. Des ingénieurs de la connaissance, terminologues et experts, ont utilisé conjointement l’interface collaborative TyDI(« Terminology Design Interface ») pour valider et intégrer ces nouveaux termes dans l’ontologie (Nédellec et al 2010). Au-delà de l’ex-tension des concepts de l’ontologie, cet enrichissement terminologique est particulièrement nécessaire dans l’objectif d’utiliser ATOLpour l’indexation automatique et sémantique des articles du domaine. L’ontologie doit donc intégrer la grande variété des termes utilisés(synonymes) pour identifier un concept donné dans un corpus.

Enfin la mise en ligne d’ATOL, grâce entre autres à l’environnement WebProtégé, permet de visualiser, en plus de la hiérarchie, unensemble d’informations destinées à définir le concept, à identifier son origine et à faciliter son utilisation (figure 5). Ce sont : i) un iden-tifiant ATOL, complété par la référence de l’identifiant initial dans VT s’il y a lieu (pour « carcass length », ATOL:0001543, VT:10001411),en y associant la source du concept (groupe de travail INRA:PHASE ou issue d’une autre ontologie telle que « Iowa State UniversityCurator »), ii) un nom (ici « carcass length ») qui correspond à l’usage le plus fréquent et les synonymes éventuels qui peuvent être exactsou proches selon le degré de similitude fonctionnelle ou sémantique, iii) une définition dont la forme suit un cadre standardisé (par exem-ple : « any measurable characteristic related to the length of the carcass following removal of the head. Typically measured between thefirst or second cervical vertebra or the first rib and the pelvis »), iv) une validation par espèce de l’utilisation du caractère ATOL (par exem-ple : « absent » pour la souris, « présent » pour les bovins, porcins, ovins…), et éventuellement v) les liens vers des sites apportant desinformations sur le caractère phénotypique (publications, gènes candidats, ARN, bases de données…), vi) les phénotypes connusassociés au caractère ATOL, vii) les méthodes de mesure de ce caractère avec des liens vers des bases de données sur les procéduresde mesure.

(1) http://oboedit.org(2) Concept intégrateur immédiatement en amont (dans l’arborescence) du caractère auquel on se réfère.(3) Concept immédiatement en aval (dans l’arborescence) du caractère intégrateur auquel on se réfère.(4) http://protege.stanford.edu(5) http://webprotege.stanford.edu/(6) http://search.cpan.org/~bibliome/Lingua-BioYaTeA/

Caractères phénotypiques Bien-être Reproduction Nutrition Production

de viande Production

laitière Total

Initiaux 424 350 226 542 83 1625

Retenus de VT 250 234 106 419 48 1057 Retenus en % des initiaux 60 75 47 77 58 67

Nouveaux 37 93 135 106 381 752 Nouveaux en % retenus de VT 15 35 127 25 794 71

Tableau 1. Nombre de caractères phénotypiques issus des branches potentiellement intéressantes (Initiaux) de l’ontologie VT(« Vertebrate Trait ontology ») parmi lesquels les caractères pertinents ont été retenus (Retenus de VT) pour la constructiond’ATOL, ainsi que le nombre de caractères nouveaux ajoutés (Nouveaux) par les experts de l’INRA (version ATOL Juillet 2010).

%

%

diminution de 35%. L’élimination descaractères est liée à plusieurs motifsnotamment leur nature trop éloignée desfinalités des productions animales commepar exemple les caractères faisant réfé-rence à des pathologies (« nécrose dumuscle squelettique » par exemple, quipeut être interprétée comme un phéno-type (nécrosé) du caractère phénoty-pique « muscle squelettique »). D’autrescaractères comme le « gras dorsal mesurésur la dernière côte à 14 semaines » n’ontpas été jugés pertinents car d’une part, ilne s’agit pas d’une mesure usuelle enproduction porcine française et d’autrepart, l’introduction de ce type de carac-tère composé (caractère mesuré × loca-lisation × âge) aboutit à une explosioncombinatoire des caractères présents dansl’ontologie et doit être envisagée plutôten associant des caractères différents (gras

dorsal, anatomie, âge à la mesure). Outrel’amélioration de la pertinence des carac-tères présents dans ATOL au regard desobjectifs fixés, cette phase de sélectiona permis de mettre en évidence l’impor-tance d’un réseau d’experts par espècepour appuyer ou non les choix des cura-teurs et aboutir à des définitions préci-ses tout en restant génériques.

b) Les caractères ajoutés par les experts

Le tableau 1 présente le nombre decaractères nouveaux ajoutés dans ATOLpar les experts Inra en plus des caractè-res issus de VT. Il apparaît fortementhétérogène selon les grandes branches.Ainsi les caractères relatifs à la « produc-tion laitière » ont fortement augmenté(+ 794%) car cette branche était peu ren-seignée par le consortium VT. D’autres

branches - comme le « bien-être » et la« production de viande » - étant déjàbien étoffées, les nouveaux caractèresproposés sont donc en proportion moin-dre (+ 15 et + 25% respectivement).

Après cette première étape appuyéesur l’ontologie VT, de nombreuses étapesde suppression et d’ajout de caractèresont été effectuées au cours de l’avancéedu projet pour mieux prendre en compteleur généricité. Par exemple, pour laqualité des carcasses, il a fallu dissocierles caractères décrivant des mesures parespèce, afin de les regrouper en un carac-tère plus générique. Ainsi le caractère« rib muscle weight » valide pour le porcet « thight weight » pour les oiseaux ontété unifiés sous le caractère « muscleweight trait ». La combinaison de cecaractère avec une base anatomiquepropre à chaque espèce doit permettrede restituer ces caractères spécifiques.Des caractères calculés comme le « car-cass yield » ont également été ajoutés.La figure 6 permet de visualiser le pour-centage de traits partagés, donc géné-riques, entre quatre espèces : le bovin,le porc, le poulet et la truite. La compa-raison entre deux mammifères (bovin etporc) montre que les caractères relatifs à« reproduction », « nutrition », « meatproduction » et à « welfare » sont très for-tement partagés (92 à 99%), alors queceux ayant trait à « milk production » lesont plus faiblement (62%) car chez leporc, la qualité du lait à des fins de nutri-tion humaine est sans objet. Les caractè-res relatifs à « meat production » ou à« nutrition » (environ 90 et 80% respec-tivement), et dans une moindre mesureceux relatifs à « reproduction » et à« welfare » (environ 40-70 et 60-70%respectivement) sont bien partagés entremammifères, oiseaux et poissons. Seulsdes caractères très spécifiques à certainsgroupes d’espèces comme « milk produc-tion » chez les mammifères, « egg pro-duction » chez les oiseaux et les pois-sons, ou « fatty liver production » pourles oies et les canards, ont un degré degénéricité relativement faible.

Les experts européens du projetAQUAEXCEL ont secondairement validé

202 / P.-Y. LE BAIL et al

INRA Productions Animales, 2014, numéro 3

Figure 5. Capture d’écran de l’éditeur d’ontologie Protégé présentant les principalesinformations contenues dans ATOL.

La hiérarchie est organisée en branches (niveau N, par exemple, « growth and meatproduction trait »). Chaque branche est déclinée en sous-branches de différentsniveaux (par exemple, N-1 ; « carcass quality trait » ; N-2 ; « exterior carcass trait » ;N-3…), jusqu’au niveau ultime (ici « carcass length »). Pour un caractère (ou trait)donné de niveau N, le caractère de niveau N+1 est appelé caractère phénotypique« parent », le ou les caractères de niveau N-1 étant appelé(s) caractère(s) phénoty-pique(s) « enfant(s) ».

Figure 6. Généricité des caractères phénotypiques (exprimé en %) au sein des 7 branches principales d’ATOL v6.0. Comparaisonentre le bovin, le porc, le poulet et la truite.

les caractères existants chez les poissonset en ont ajouté de nouveaux. Ces dif-férentes phases aboutissent aujourd’hui(ATOL version 6.0) à un total de 1 848caractères (figure 7) assortis de leursdéfinitions et éventuellement de leurssynonymes. Dans cette version, le nom-bre des caractères phénotypiques est rela-tivement équilibré au sein des grandesbranches thématiques. Il varie autour de19-24% pour les branches « milk produc-tion » et « nutrition », autour de 12-16%pour les branches « meat production »,« reproduction », « animal welfare » et« egg production ». Seule la branche« fatty liver », très spécifique à la pro-duction française, reste en retrait (envi-ron 2,5%).

c) Enrichissement d’ATOL grâce à l’ana-lyse sémantique

Des analyses sémantiques effectuéessur le corpus de la revue « Animal » dansun premier temps, puis dans le cadred’AQUAEXCEL sur le corpus du journal« Aquaculture », ont également permisd’enrichir ATOL de nouveaux concepts.Ainsi pour les poissons d’élevage, deuxnouveaux caractères ont été introduitsdans la branche « animal welfare »(« amplitude ventilation » et « olfactorylearning »). Le nombre réduit de nou-veaux concepts apportés par l’analysesémantique montre que la couverture descaractères proposés par les experts étaitdéjà très bonne. L’apport le plus impor-tant de l’analyse sémantique a été celuides synonymes. A partir de la revue« Animal », 156 synonymes ont étéajoutés à ATOL grâce à BioYaTeA et171 grâce à FastR (Golik et al 2012).Ensuite, plus de 120 synonymes ont été

ajoutés à partir de la revue « Aquacultu-re ». Ces ajouts ont notablement aug-menté la couverture et la pertinence del’ontologie pour l’indexation des articles.

d) Evolutions futures du nombre decaractères dans ATOL

Une ontologie n’est jamais figée etsubit en permanence des mises à jour,ajouts, suppression de caractères enfonction par exemple de nouvelles bran-ches à introduire dans l’ontologie, commerécemment celles sur la production defoie gras ou d’œufs. Les points de vuepeuvent également évoluer avec l’arrivéede nouveaux experts de culture scienti-fique différente qui proposent de nou-veaux caractères ou déclinent en carac-tères plus fins des caractères existants.C’est notamment le cas avec l’élargisse-ment du consortium à de nouveaux par-tenaires européens. Par ailleurs, l’appa-rition de nouvelles technologies, soit plusprécises, soit ouvrant de nouvelles possi-bilités d’exploration fonctionnelles (ima-gerie à haute résolution, puce SNP…),permettra sans doute de décliner certainscaractères encore relativement « gros-siers » en des concepts « enfants » pluspertinents et/ou plus proches du déter-minisme génétique sous-jacent. Enfin, lamise en ligne en Avril 2012 de l’ontolo-gie sur un site web dédié (http://www.atol-ontology.com/index.php/fr/), avec unformulaire de contact, permet un retourd’expertise de l’ensemble de la commu-nauté scientifique. Dans les années àvenir, il est probable que l’utilisationrégulière de l’ontologie par les cher-cheurs, avec par exemple l’introductiondes identifiants ATOL dans leurs publi-cations, nécessitera l’ajout de nombreux

traits, absents à l’heure actuelle. Cesajouts devront donc être sans cessecontrôlés et validés par les curateurs afinde préserver l’homogénéité et la géné-ricité souhaitées initialement.

3.2 / Organisation hiérarchique

Un effort particulier a consisté à organi-ser l’ontologie sous forme de hiérarchie despécialisation, où chaque classe (ou unesous-branche de niveau N) est une spécia-lisation (ou une sous-classe, ou une classeenfant, ou sous-branche de niveau N-1)de ses superclasses. De plus, un seultype de relation entre concepts, « is_a »,a été utilisé dans la version actuelled’ATOL. Par exemple, « adipose tissuefatty acid content » (ATOL:0000074)et « adipose tissue lipid oxydation »(ATOL:0000075) sont deux sous-classesde « adipose tissue lipid quality » (ATOL:0000073), les deux caractères enfantsétant bien, l’un comme l’autre, descaractères qualitatifs des lipides du tissuadipeux. Ainsi, toutes les propriétés dela superclasse sont automatiquementvraies pour ses sous-classes (et les sous-classes de ces sous-classes). Grâce àcette notion d’héritage, la hiérarchie despécialisation permet de simplifier lareprésentation des connaissances enfactorisant tout ce qui est commun.Inversement, la hiérarchie de spécialisa-tion permet d’automatiser le raisonne-ment en exploitant le fait que si unedonnée est annotée par un caractèrephénotypique de l’ontologie, on peutégalement considérer qu’elle est annotéepar tous les ascendants de ce caractère(puisqu’ils sont plus généraux). Il devientalors possible de retrouver toutes lesdonnées non seulement en se référant

Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL / 203

INRA Productions Animales, 2014, numéro 3

Figure 7. Evolution du nombre total de caractères et du partage des caractères entre grandes branches au cours de trois étapesde la construction d’ATOL.

Couleur des branches. vert pomme : « growth and meat production » ; vert menthe : « milk production » ; ocre jaune : « fattyliver » ; bleu : « nutrition » ; rouge : « egg production » ; magenta : « animal welfare » ; indigo : « reproduction ». Extraction(Caractères issus de branches de VT potentiellement intéressantes), Sélection (Caractères de VT conservés après expertise),ATOL v6.0 (version 6.0 d’ATOL après enrichissement par les experts et analyse sémantique).

directement à « adipose tissue fatty acidcontent » ou « adipose tissue lipid oxy-dation » (respectivement ATOL:0000074et ATOL:0000075), mais également ense référant indirectement à « adiposetissue lipid quality » (ATOL:0000073)qui est leur caractère parent. Ces deuxaspects de simplification de la modéli-sation et d’automatisation du raisonne-ment sont possibles uniquement si lessous-classes sont des cas particuliers desuperclasses. Il a donc fallu corriger lesportions pertinentes de VT pour lesquel-les ce principe n’était pas respecté.

Lorsque nécessaire, nous avons eurecours à l’héritage multiple en permet-tant à une classe (un caractère) d’avoirplusieurs parents directs. Ainsi, « bodyweight » (ATOL:0000351) est à la foisune sous-classe de « animal performancetrait » (ATOL:0001516) et de « growthtrait » (ATOL:0000855). En effet, lescaractères à héritage multiple expliquentde manière toute aussi pertinente laconstruction de caractères phénoty-piques appartenant à des branches diffé-rentes. Le partage des caractères entre

les 7 grandes branches d’ATOL restetoutefois très inégal (figure 7). Lesbranches « nutrition », « milk production »,« fatty liver », « egg production » parta-gent moins de 5% de leur caractèresavec les autres branches. A l’inverse, labranche « animal welfare » partage plusde 30% de ses caractères avec les autresbranches, en particulier celles des bran-ches « reproduction » et « meat produc-tion », soulignant ainsi que le conceptde « bien-être animal », au-delà de l’ex-pression des comportements, permetune approche multicritère incluant unepart importante de critères de productionde nature zootechnique.

La dernière version d’ATOL, riche deses nouveaux concepts et grâce à sastructure hiérarchique, permet une fouillebibliographique beaucoup plus perfor-mante qu’avec de simples requêtes parmot clé utilisées avec les moteurs derecherche de type Google. Par exemple,la requête « animal performance » avecle moteur de recherche sémantiqueAlvisIR19 sur le journal « Animal » deCambridge University Press entre 2007

et 2010, renvoie 1 301 résultats contreseulement 547 avec Google Scholar. Eneffet, le terme de la requête « animalperformance » (figure 8) est interprétécomme le concept de l’ontologie ATOL,c’est-à-dire aussi par tous ses caractèresenfants et leurs synonymes (dont lenombre est supérieur à 40) définissant laperformance, comme la fertilité, la pro-duction de lait, d’œuf, etc.

3.3 / Les difficultés rencontrées

a) Jusqu’où aller ou ne pas aller dans lechoix des caractères

Si l’on souhaite une ontologie réelle-ment opérationnelle et qui serve de réfé-rence à toute une communauté, il fauts’en tenir à son champ d’application etaux objectifs fixés. Une base trop fournieen caractères peu pertinents, mal orien-tée et mal structurée génère un outil tropcomplexe qui rebute les utilisateurspotentiels. La recherche de l’exhaustivitén’est donc pas souhaitable et constituesouvent un frein à l’élaboration d’unoutil performant. De plus, le caractère

204 / P.-Y. LE BAIL et al

INRA Productions Animales, 2014, numéro 3

Figure 8. Capture d’écran du moteur de recherche bibliographique AlvisIR montrant les résultats de la requête « animalperformance trait » en utilisant ATOL.En utilisant le caractère phénotypique « animal performance trait », la requête effectuée sur l’ensemble de la collection desarticles du journal «Animal» (CUP) prend en compte ce caractère et l’ensemble des caractères plus spécifiques parmi lesquelsles termes en rouge (« fertility, prolificity, feed efficiency... »).

19 http://bibliome.jouy.inra.fr/test/alvisir/Animal/

Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL / 205

INRA Productions Animales, 2014, numéro 3

phénotypique d’intérêt ne correspond pasà une granulométrie particulière définiea priori. Par exemple, dans le cas de laqualité des tissus, le caractère peut sedécliner tout aussi bien au niveau de lamorphologie de la carcasse, de la tendretéde la viande, de la cellularité du muscleou du pH musculaire. Dans ce cas, leniveau moléculaire peut aussi être perti-nent puisque, par exemple, les concen-trations d’IGF1 peuvent rendre comptede la prolifération des cellules musculaires,elle-même liée à la cellularité du muscle.Si les concentrations en ARN, et peut-être demain les marques épigénétiquesdes promoteurs de gènes myogéniques,peuvent parfois apporter des informa-tions appropriées, il nous a semblé pluslogique de nous en tenir à l’échelle de laprotéine qui leur correspond et qui estgénéralement l’effecteur. Mais ce quicompte, c’est le lien explicatif avéré ducaractère avec la qualité du tissu visé, lapertinence du caractère étant laissée àl’appréciation des experts du domaine.Nous n’avons donc pas suivi de règlegénérale, a priori plus satisfaisante con-ceptuellement, mais une démarche aucas par cas priorisant l’efficacité del’ontologie.

b) Les caractères complexes ou calculés,pourquoi ?

Le consortium VT définit un caractèrecomme une caractéristique simple quel’on peut mesurer ou observer directe-ment sur l’animal, un organe, un tissuou même une cellule. De nombreusesvariables d’intérêt agronomique sont enfait issues de calculs utilisant plusieurscaractères simples ramenés par exempleau poids vif de l’animal (rendement encarcasse, rapport gonado-somatique…).La question est donc de savoir si l’onpeut considérer ces variables, que l’onappellera complexes ou calculées, commedes caractères à part entière. Dans unsouci de comparaison entre espèces etde description fine des phénotypes aucours du développement et de la crois-sance de l’animal, il est essentiel de fairefigurer ce type de caractères dans l’on-tologie. L’information contenue dans unrapport gonado-somatique (poids desgonades ramené au poids du corps del’animal et exprimé en %) est en effetplus pertinente que celle du simple poidsdes gonades qui, variant avec la taille del’animal, ne donnera aucune indicationsur son état de maturité sexuelle et nepermettra pas de comparaison entreindividus. De même, le poids d’une car-casse de porc de 100 kg et d’une truitede 2 kg ne donne aucune idée du rende-ment en carcasse entre ces deux espècesqui peut être toutefois assez similaire(autour de 80%). A contrario, des ani-maux avec des poids de carcasse pro-ches comme le lapin et la truite peuventavoir des rendements très différents

(60 vs 80%). La plupart de ces caractè-res calculés sont en fait des normalisa-tions d’une mesure brute ramenée à unautre caractère ou paramètre pris en réfé-rence (poids ou taille de l’animal, surface,temps, nombre d’évènements…). A l’ave-nir, il nous faudra introduire dans la hié-rarchie d’ATOL une relation supplémen-taire de type « normalization_of » pourmieux rendre compte du positionnementde ces caractères. Ainsi, le caratère rap-port gonado-somatique sera relié aucaractère poids des gonades par la relation« normalization_of », ce qui permettrad’exploiter cette nouvelle propriété lors defouilles bibliographies à l’aide d’ATOL.

c) Un nom de caractère concis ou précis ?

Le nom d’un caractère (ou étiquette duconcept) est d’autant plus pertinent qu’ilest précis, unique, univoque et couram-ment utilisé. C’est le cas par exemple ducaractère phénotypique « puberty »(ATOL:0000431) qui correspond à l’âgeauquel l’animal devient capable de sereproduire et de donner une descendance.En effectuant une fouille bibliographiquepour ce caractère et pour une espècedonnée, la quasi-totalité des documentsrepérés traiteront effectivement de puber-té. Mais nombre de caractères phénoty-piques ne peuvent à la fois être concis etprécis. Par exemple, si l’on veut sélec-tionner des documents traitant de « milkfatty acid C10:0 concentration » (ATOL:0000644), une fouille avec ce nom étendune sélectionnera pas ou peu de documentstraitant du sujet car la probabilité detrouver une chaîne de 5 mots ordonnésde la même manière est extrêmementfaible. En revanche, le concept « fatty acidC10:0 concentration » permettra de repé-rer des documents beaucoup plus nom-breux, avec un résultat de requête moinspertinent puisque les documents porterontsur la concentration en acide capriquedans différents tissus comme la viande,le foie, le sang, etc. Lors de la conceptiond’ATOL, nous avons recherché les nomsde caractères les plus courts possibles.Mais dans certains cas, et pour gagneren précision, nous avons délibérémentopté pour des noms composés de plu-sieurs mots (jusqu’à 5) en considérantque leur pertinence en termes de fouillebibliographique augmenterait au coursdu temps au fur et à mesure que lesauteurs des publications se réfèreraientaux termes univoques proposés parATOL. Entre temps, il reste la possibilitéde fractionner le nom du caractère – parles outils informatiques –, par exempleen « concentration in milk » et « fattyacid C10:0 », pour obtenir un résultatde requête satisfaisant.

d) L’aspect temporel des caractères

La mesure de certains caractères estparfois associée au cycle de vie de l’ani-

mal comme son âge ou son stade dedéveloppement. Ainsi pour la qualitédes carcasses, le caractère « épaisseurde gras dorsal à 14 semaines », tel qu’ilest mesuré aux USA, ne correspond pasà une pratique en France et n’est passtandardisé au niveau international.L’introduction de caractères très associésau stade de développement expose aurisque de devoir les décliner à différentesétapes de la vie de l’animal (épaisseur à14 semaines, 5 mois, 6 mois…). Il estdonc nécessaire de dissocier le caractèreproprement dit des aspects temporelsliés aux conditions de mesure. Commepour les caractères liés à l’anatomie, c’estl’approche combinée (caractère + âge)qui a été la plupart du temps privilégiée(cf. 3.1/ b). Toutefois, cet aspect tempo-rel a été conservé dans certains cas lors-qu’il peut constituer un caractère en lui-même. Par exemple, le concept « âge àl’abattage » peut être pertinent car sil’âge seul peut être traité comme unecondition de mesure, l’âge à l’abattageest directement relié à la croissance del’animal et peut donc être considérécomme un caractère, d’autant plus qu’ilest ainsi générique pour toutes les espè-ces et partagé par l’ensemble de la com-munauté. Le même problème se posepour les caractères liés au développe-ment embryonnaire. Il a fallu en effetdistinguer les caractères spécifiques dudéveloppement de ceux que l’on pou-vait mesurer tout au long de la vie del’animal. Par exemple dans la sous-branche « développement du muscle »,le « nombre de fibres musculaires à lanaissance » n’est pas spécifique puisquele caractère « nombre de fibres » peutêtre mesuré chez l’adulte comme chezl’embryon, en revanche « l’apparitionde la première génération de myoblas-tes » est un caractère spécifique dudéveloppement embryonnaire.

e) Lien avec les paramètres environne-mentaux

Un autre problème posé dans la défi-nition d’un caractère, et les limites qu’elleinduit, est celui des conditions dans les-quelles ce caractère est mesuré. Si l’ons’intéresse aux capacités de croissanceintrinsèque d’un animal, le gain de poidsd’une truite élevée à 10°C n’apporte pasla même information que celui d’unetruite élevée à 20°C. Outre l’effet clas-sique positif de la température sur lavitesse de croissance des poïkilother-mes, on peut se demander si l’on mesurebien les mêmes capacités de croissanceentre ces deux conditions et donc lemême caractère. Il apparaît toutefoisirréaliste d’introduire dans la définitiondu caractère « taux de croissance » unlien avec la température d’élevage sansaboutir à une inflation du nombre decaractères liés à la multitude de combi-naisons possibles, d’autant plus que la

variable est continue (poids à 10°C,poids à 20°C…). Il est donc nécessairede faire abstraction de ce type d’infor-mation dans l’ontologie ATOL, tout enl’utilisant pour annoter les données demesure à partir d’une autre ontologie(EOL) qui porterait cette fois sur l’en-semble des conditions d’élevage (facteursbiotiques et abiotiques).

Conclusion et perspectives

Le chantier ATOL (figure 4), qui amobilisé fortement la communauté desscientifiques des départements PHASE,GA, CEPIA et MIA de l’Inra, mais aussinos partenaires internationaux, déboucheaujourd’hui sur un référentiel des carac-tères phénotypiques couvrant une trèslarge partie des concepts utilisés dans ledomaine des productions animales. Sil’ontologie est au cœur du projet, ellepermet en outre – sous sa forme en ligne –de jouer un rôle de portail ouvrant desliens vers des sites porteurs d’informa-tions complémentaires (structure desmolécules impliquées dans les caractè-res, liste des phénotypes associés…).Dès à présent, ATOL permet de cons-truire des bases de données – précises etinterconnectables – sur les caractèresphénotypiques. Le département PHASEl’utilise dans son projet TriPhase visantà répertorier très finement les recher-ches effectuées dans ses unités de

recherche. Il est également envisageablede mettre à disposition des chercheursun moteur de recherche bibliographiques’appuyant sur ATOL, aux performancesbien supérieures aux classiques moteursde recherche de type Google. L’ontologiedevra toutefois évoluer en intégrantd’autres périmètres comme la santé ani-male, des productions plus modestes(laine, cuir…), ou s’élargir à d’autresespèces, pour autant que des spécialistesde ces domaines s’y impliquent. Pourque le dispositif de description des phé-notypes soit totalement opérationnel, ildoit être complété en décrivant les condi-tions d’élevage et de mesure. L’ontologieEOL (« Environnement Ontology forLivestock »), construite par l’Inra et sespartenaires européens du projet Aqua-excel, est déjà accessible. En revanche,la constitution d’une base de référencedes protocoles de mesure est un chantierqu’il reste à mener et qui nécessitera àla fois une forte volonté et des moyenshumains. Enfin, ATOL a été constituéepour et par des scientifiques. Cet outilprendra pleinement son sens et accroîtrason opérationnalité quand son appro-priation par la communauté scientifiquesera effective, par exemple en indiquantsystématiquement dans les publicationsles identifiants et les noms standardisésdes caractères phénotypiques proposéspar l’ontologie, à la manière de ce quiest maintenant couramment pratiquéavec les noms scientifiques des espècesou les séquences géniques de GenBank20.

Mais au-delà de la communauté scienti-fique, les interprofessions disposent dèsà présent d’un référentiel permettantd’organiser et de standardiser des basesde données phénotypiques dans le cadre,par exemple, de programmes de sélectiongénétique.

Remerciements

Les auteurs tiennent à remercier ledépartement PHASE de l’Inra à l’initia-tive du programme ATOL et qui a soutenufinancièrement dans le temps l’ensem-ble des réunions de travail et des équipe-ments informatiques. Notre reconnaissan-ce va également au comité de pilotage etaux différents experts qui se sont inves-tis sans relâche dans ce projet et dont lesnoms sont consultables sur le site ATOL(h t tp : / /www.a to l -on to logy.com/index.php/fr/les-acteurs-fr/experts/les-experts-fr). Merci également à JamesReecy et Cary Park (USDA) pour leséchanges très fructueux pour rendre com-patiblesATOL et VT. Remerciements éga-lement aux acteurs du projet européenAQUAEXCEL (FP7 « Aquaculture Infra-structures for Excellence in EuropeanFish Research, Project number: 262336 »)qui a par ailleurs financé le salaire d’unepersonne employée en CDD durant deuxans. Enfin, nous remercions les lecteursarbitres du journal qui nous ont permisd’améliorer la clarté du présent article.

206 / P.-Y. LE BAIL et al

INRA Productions Animales, 2014, numéro 3

20 http://www.ncbi.nlm.nih.gov/genbank/

Références

Bard J.B.L., Rhee S.Y., 2004. Ontologies inbiology: design, applications and futurechallenges. Nat. Rev. Genet., 5, 213-222.

Blake J.A., Bult C.J., 2006. Beyond the datadeluge: data integration and bio-ontologies.J. Biomed. Inform., 39, 314-320.

Bodenreider O., Stevens R., 2006. Bio-ontologies:current trends and future directions. BriefBioinform., 7, 256-274.

Cimino J.J., Zhu X., 2006. The practical impactof ontologies on biomedical informatics. YearbMed. Inform., 124-135.

Corcho O., 2006. Ontology based documentannotation: trends and open research problems.Int. J. Metadata Semant. Ontologies, 1, 47-57.

De Rochambeau H., 2007. Les principes del’amélioration génétique des animaux domes-tiques. C. R. Acad. Agric. Fr., 93, 1-9.

Elek P., Newbold J.R., Gall T., Wagner L.,Husventh F., 2008. Effects of rumen protectedcholine supplementation on milk productionand choline supply of periparturient dairy cows.Animal, 2, 1595-1601.

Golik W., Dameron O., Bugeon J., Fatet A.,Hue I., Hurtaud C., Reichstadt M., Salaün

M.C., Vernet J., Joret L., Papazian F., NédellecC., Le Bail P.Y., 2012. ATOL: the multi-specieslivestock trait ontology. In: Proc. 6th Metadataand Semantics Research Conference, SpringerVerlag Communications in Computer andInformation Science Serie. Cadiz, Espagne,289-300.

Golik W., Bossy R., Ratkovic Z., Nédellec C.,2013. Improving term extraction with linguisticanalysis in the biomedical domain. Res. Comp.Sci., 129-143.

Groth P., Leser U., Weiss B., 2011. Phenotypemining for functional genomics and genediscovery. Methods Mol. Biol., 760, 159-173.

Hocquette J.F., Renand G., Levéziel H., PicardB., Cassar-Malek I., 2006. The potential benefitsof genetics and genomics to improve beefquality. Anim. Sci. Papers and Reports, 24,173-189.

Hocquette J.F., Boudra H., Cassar-Malek I.,Leroux C., Picard B., Savary I., Bernard L.,Cornu A., Durand D., Ferlay A., Gruffat D.,Morgavi D., Terlouw C., 2009. Perspectivesoffertes par les approches en « omique » pourl’amélioration de la durabilité de l’élevagedes herbivores. INRA Prod. Anim., 22, 385-396.

Hocquette J.F., Meurice P., Brun J.P., Jurie C.,Denoyelle C., Bauchart D., Renand G., NuteG.R., Picard B., 2011. The challenge and limi-tations of combining data: a case study examin-ing the relationship between intramuscularfat content and flavour intensity based on theBIF-BEEF database. Anim. Prod. Sci., 51, 975-981.

Hocquette J.F., Capel C., David V., GuéménéD., Bidanel J., Ponsart C., Gastinel P.L., LeBail P.Y., Monget P., Mormède P., BarbezantM., Guillou F., Peyraud J.L., 2012. Objectivesand applications of phenotyping network set-upfor livestock. Anim. Sci. J., 83, 517-528.

Hu Z.L., Dracheva S., Jang W., Maglott D.,Bastiaansen J., Rothschild M.F., Reecy J.M.,2005. A qtl resource and comparison tool forpigs: PigQTLDB. Mamm. Genome, 16, 792-800.

Hughes L.M., Bao J., Hu Z.L., Honavar V.,Reecy J. M., 2008. Animal trait ontology: Theimportance and usefulness of a unified traitvocabulary for animal species. J. Anim. Sci.,86, 1485-1491.

Jacquemin C., 1999. Syntagmatic and para-digmatic representations of term variation. In:Proc. ACL’99, 341-348.

Miller G.A., Beckwith R., Fellbaum C.D.,Gross D., Miller K., 1990. WordNet: An onlinelexical database. Int. J. Lexicograph., 4, 235-244.

Monget P., Le Bail P.Y., 2009. Le phénotypagedes animaux : le nouveau défi ? Animal pheno-typing: the new challenge. Renc. Rech. Rum.,16, 407-409.

Mungall C.J., Gkoutos G.V., Smith C.L.,Haendel M.A., Lewis S.E., Ashburner M.,2010. Integrating phenotype ontologies acrossmultiple species. Genome Biol., 11, R2.

Nédellec C., Golik W., Aubin S., Bossy R.,2010. Building Large Lexicalized Ontologiesfrom Text: a Use Case in Indexing Biotechno-

logy Patents. EKAW 2010. 514-523, SpringerVerlag. Lisbon, Portugal, Oct. 11-15, 2010.

Park C.A., Bello S.M., Smith C.L., Hu Z.L.,Munzenmaier D.H., Nigam R., Smith J.R.,Shimoyama M., Eppig J.T., Reecy J.M., 2013.The Vertebrate Trait Ontology: a controlledvocabulary for the annotation of trait dataacross species. J. Biomed. Semantics, 4, 13.

Robinson P.N., Mundlos S., 2010. The HumanPhenotype Ontology. Clin. Genet., 77, 525-534.

Shimoyama M., Nigam R., Sanders McIntoshL., Nagarajan R., Rice T., Rao D.C., DwinellM.R., 2013. Three ontologies to define pheno-type measurement data. Front. Genet., Vol 3,Art. 87, 10p.

Smith C.L., Goldsmith C.A.W., Eppig J.T.,2005. The Mammalian Phenotype Ontology asa tool for annotating, analysing and comparingphenotypic information. Genome Biol., 6, R7.

Teletchea F., Fostier, A., Le Bail P.Y., JalabertB., Gardeur J.N., Fontaine P., 2007. STORE-FISH: A new database dedicated to the repro-duction of temperate freshwater teleost fishes.Cybium, 31, 227-235.

Watson R., Gee A., Polkinghorne R., Porter M.,2008. Consumer assessment of eating quality –development of protocols for Meat StandardsAustralia (MSA) testing. Aust. J. Exp. Agric.,48, 1360-1367.

Résumé

Les avancées technologiques récentes en biologie permettent la production de grandes quantités de données capables de décrire deplus en plus finement les phénotypes. Pour traiter en masse ces informations à l’aide de programmes informatiques et comparer lesphénotypes provenant d’études différentes, il est indispensable de disposer d’un langage standardisé définissant sans ambiguïté lescaractères phénotypiques auxquels pourront se référer des utilisateurs variés (généticiens, physiologistes, biochimistes, modélisateurs,producteurs…). L’absence d’un tel référentiel pour les animaux d’élevage a conduit l’Inra, en collaboration avec ses partenairesinternationaux, à mettre en place une ontologie nommée ATOL (« Animal Trait Ontology for Livestock »). Celle-ci vise à définir lescaractères phénotypiques des animaux d’élevage en les organisant en catégories, autour des performances (efficacité alimentaire, fer-tilité), des produits (production laitière, de viande, d’œufs, de foie gras) et des préoccupations sociétales (bien-être animal) se rappor-tant aux productions animales. Cet article explique les motivations à l’origine du projet, les objectifs poursuivis, la démarche adop-tée et son originalité, ses limites et ses performances. Notre ambition est que cette ontologie, actuellement en accès libre sur la toile,soit largement utilisée pour référencer les caractères utilisés dans les publications et les bases de données, et ce pour favoriser unefouille bibliographique précise, facilitant ainsi l’intégration des informations à des fins de biologie systémique et prédictive.

Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL / 207

INRA Productions Animales, 2014, numéro 3

A controlled vocabulary for livestock phenotyping: the ATOL ontology

Recent technological advances allow the production of large biological datasets that makes the description of phenotypes more accurate.To analyze this huge amount of information with computers and thus compare phenotypes, it is essential to define a standardlanguage that unambiguously defines phenotypic traits so as to serve as a reference, worldwide, to any possible user (geneticist,physiologist, biochemist, modeler, producer...). The absence of such a language/reference for livestock species has led Inra, incollaboration with its international partners, to develop an ontology that is called ATOL (Animal Trait Ontology for Livestock). Itsaims are to define the phenotypic characters of livestock species, and allocate them to different types: performance traits (feedefficiency, fertility), production traits (dairy, meat, eggs, fatty liver) and societal traits (welfare). This article summarizes the objectivesof the project, the original approach used to build the ontology, but also its current status and performance as well as its limitation.This ontology is publicly available on the web and expected to be widely shared worldwide for the common use of unique terms toannotate publications, databases or mine literature and thus promote systemic as well as predictive biology.

LE BAIL P.-Y., BUGEON J., DAMERON O., FATET A., GOLIK W., HOCQUETTE J.-F., HURTAUD C., HUE I.,JONDREVILLE C., JORET L., MEUNIER-SALAÜN M.-C., VERNET J., NEDELLEC C., REICHSTADT M.,CHEMINEAU P., 2014. Un langage de référence pour le phénotypage des animaux d’élevage : l’ontologie ATOL.In : Phénotypage des animaux d’elevage. Phocas F. (Ed). Dossier, INRA Prod. Anim., 27, 195-208.

Abstract