11

Click here to load reader

ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

Embed Size (px)

Citation preview

Page 1: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

212, rue de Bercy – 75212 Paris

ANR

AGENCE NATIONALE DE LA RECHERCHE

PROGRAMME ACI IMPbio 2003

Rapport de fin de projet

( à transmettre en 2 exemplaires ) I - FICHE D’IDENTITE DU PROJET

DECISION D’AIDE N°

Numéro de référence du projet : IMPB068 (APPI) Titre du Projet : Caractérisation d’interactions protéine-protéine chez Arabidopsis thaliana via une approche prédictive basée sur l’organisation structurale et topologique des gènes Coordinateur du projet : Sébastien Aubourg Tél du coordinateur du projet : 01 60 87 45 16 Mél du coordinateur du projet : [email protected] Laboratoire de rattachement du coordinateur : Unité de Recherche en Génomique Végétale (URGV) UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue Gaston Crémieux - CP 5708 - 91057 Evry Cedex - France Numéro d'unité : UMR INRA 1165 - CNRS 8114 - UEVE Montant global : 45 K€ TTC Durée : 3 ans (2004-2006)

Page 2: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

2

Partenaires du Projet Laboratoire (pas de sigle) Sébastien Aubourg Claire Lurin

Equipe ‘Bioinformatique’ Unité de Recherche en Génomique Végétale 2, Rue Gaston Crémieux - CP 5708 - 91057 Evry Cedex – France Equipe ‘Fonction des Gènes’ Unité de Recherche en Génomique Végétale 2, Rue Gaston Crémieux - CP 5708 - 91057 Evry Cedex – France

Ont participé à ce projet : - Equipe ‘Bioinformatique’ : Véronique Brunaud, Alain Lecharny, Marie-Laure Martin-Magniette, Cyril Pommier (stagiaire), Nathalie Bailly (stagiaire) et Sébastien Aubourg. - Equipe ‘Fonction des Gènes’ : Alexandra Avon, Stéphanie Pateyron et Claire Lurin.

Page 3: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

3

II – BILAN DETAILLE DU PROJET

1 – Rappel des objectifs initiaux du projet :

Il a été montré chez les procaryotes, et depuis peu chez certains eucaryotes supérieurs, que l’organisation des gènes est orientée par une pression de sélection liée à leur fonction. La formation de groupes fonctionnels de gènes le long d’un chromosome peut être le résultat de la sélection positive d’une association de novo ou du maintien de la colinéarité des gènes après duplication d’un fragment génomique. La proximité physique de gènes fonctionnellement liés peut s’expliquer par l’utilisation de motifs régulateurs communs qui garantissent ainsi la synexpression tissulaire et/ou temporelle de ces gènes et donc, dans une certaine mesure, de leur produit. Ces produits peuvent alors participer efficacement à une même fonction biologique (voie métabolique ou de signalisation) par exemple en interagissant physiquement. Avec l’évolution et la pression de sélection, ces interactions au niveau protéique peuvent se trouver stabilisés au niveau génétique par des événements de fusion de gènes. Ainsi, la recherche de gènes composants et composites (gènes constitués par la fusion de plusieurs gènes composants) au sein d’un ou plusieurs génomes peut conduire à proposer des gènes dont les produits sont de bons candidats à une interaction protéine-protéine. Ces approches (contexte chromosomique, ‘Rosetta Stone’) sont aujourd’hui efficacement exploitées chez les procaryotes pour l’annotation fonctionnelle des génomes (1-5) mais sont encore très peu appliquées aux génomes eucaryotes. Chez les plantes, des cas isolés de relations évolutives ou fonctionnelles entre gènes en tandem ou fusionnés ont été observés (6, Figure 1) mais les hypothèses qui pourraient en découler nécessitent une approche à l’échelle d’un génome.

Figure 1. Exemple du complexe protéique SNF1/AKIN/AMPK La première partie du projet consiste donc à rechercher exhaustivement les conservations strictes de regroupements topologiques de gènes et les gènes composites présents dans le génome modèle de la plante Arabidopsis thaliana. Les résultats obtenus permettront d’identifier un certain nombre de gènes candidats dont les produits seraient susceptibles d’interagir directement. Ces résultats seront confrontés à des données de type transcriptome, des prédictions d’adressage sub-cellulaire et des recherches de régions synténiques seront réalisées pour renforcer la qualité des prédictions des couples de gènes candidats. Cette prospection bioinformatique sera alors complétée lors d’une seconde étape, par des tests expérimentaux visant à confirmer ou infirmer les interactions protéine-protéine proposées. La combinaison de ces approches informatiques et moléculaires permettra d’aborder efficacement l’interactome d’une plante modèle sans a priori sur la fonction des gènes. L’objectif final est donc de proposer un nombre significatif d’interactions protéine-protéine expérimentalement validées et de mieux comprendre la dynamique des génomes végétaux et la co-évolution des gènes fonctionnellement liés.

SNF4SNF1

SIP1SIP2GAL83

3 gènes 2 gènes

Arabidopsis

Saccharomyces

AKINβAKINα

AKINγ AKINαAKINβγ

Page 4: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

4

2 – Rapport final 2 .1 Programme des actions engagées

Pour répondre aux objectifs de ce projet et valider ainsi l’approche bioinformatique proposée tout en appréhendant de manière originale la co-évolution des gènes fonctionnellement liés chez les plantes, nous avons engagé chronologiquement les 4 actions suivantes :

A. Recherche et caractérisation exhaustive de toutes les situations de fusion de gènes (gènes composites) dans le génome d’Arabidopsis. B. Expertise de la pertinence des différents cas de figure rencontrés. C. Prise en compte de critères biologiques indépendants pour pondérer les résultats obtenus et sélectionner les meilleurs candidats. D. Vérification expérimentale des interactions directes entre les protéines codées par les couples de gènes composants précédemment sélectionnés.

Les actions A, B et C (partenaire 1, années 2004-2005) sont basées sur des méthodes bioinformatiques intégrant de la fouille de données (motifs protéiques, transcriptome…), de la statistique, de la bioanalyse, des approches prédictives (signaux d’adressage, structures géniques…) et des développements strictement informatiques (scripts de traitement et base de données). L’action D conclue le projet de manière expérimentale (partenaire 2, année 2006). 2.2 Apports et résultats scientifiques, y compris les avancées permises par la collaboration interdisciplinaire. A. Caractérisation des gènes composants et composites La définition des candidats est basée sur l’utilisation de motifs protéiques recherchés exhaustivement à partir des profils HMM issus de la base de données PFAM (7). Le criblage exhaustif du protéome prédit et de l’intégralité du génome traduit d’Arabidopsis thaliana (R6.0, TAIR) avec ces profils et le logiciel HMMER (v2.3) nous ont permis de caractériser environ 43 000 occurrences de motifs protéiques. Cette ressource couvrant 70% des gènes donne une vue très complète des familles multigéniques (plus de 2000) et de leur organisation chromosomique et facilite donc l’identification des gènes composites et composants. Cette ressource est accessible dans FLAGdb++, base de données relationnelle développée depuis 5 ans par l’équipe et dédiée à l’analyse fonctionnelle des gènes végétaux (8). L’étiquetage systématique des gènes par leurs motifs protéiques a permis un re-codage complet des 5 chromosomes d’Arabidopsis basé sur la succession d’identifiants PFAM. Cette version ‘motifs’ du génome a été ensuite analysée à l’aide d’un script PERL pour mettre en évidence les gènes composites (issus de fusion) et leur gènes composants : un total de 514 situations (appelées ‘groupes’) a été détecté impliquant 2 à 5 motifs PFAM distincts. Selon les cas, les groupes se caractérisent par une grande diversité des composites, l’unicité et la co-localisation des gènes composants ou au contraire une combinatoire très importante des gènes composants (Figure 2).

Page 5: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

5

Figure 2. Quelques exemples des groupes de gènes composite(s)-composants. B. Expertise des groupes de gènes candidats La bioanalyse semi-automatique des 514 groupes identifiés a permis de mettre de coté les situations jugées peu pertinentes ou dont l’étude expérimentale ne peut rentrer dans le cadre de ce projet. Ainsi, 79 groupes impliquant des motifs PFAM avec un score limite, une très petite taille, ou chevauchant un autre PFAM ont été éliminés. Les groupes contenant de probables pseudogènes ou des éléments transposables ont également été supprimés en raison de structure génique souvent douteuse. De même, l’expertise fine de la structure des gènes composites dans l’environnement FLAGdb++ a révélé de flagrantes erreurs de prédiction dans 19 groupes (exemple, Figure 3). Ce résultat est supporté par la présence de séquences de transcrits (EST ou cDNA) et de prédictions divergentes (logiciel Eugene, 9).

Figure 3. Erreur d’annotation structurale remettant en cause le gène composite Enfin, 182 groupes ont été écartés en raison d’une combinatoire des gènes composants trop importante et donc incompatible avec une expertise manuelle et une validation expérimentale des interactions. Par exemple, le groupe défini par les gènes composites portant les motifs PFAM PF00646 et PF01344 (présents 94 fois dans le génome) contient également 582 gènes composants PF00646 et 20 gènes composants PF01344, soit 11640 couples possibles dont les produits sont candidats à l’interaction. Finalement, cette étape d’expertise a permis de sélectionner 205 groupes pertinents.

EST

Eugène CDSPFAM

EST

Eugène CDSPFAM

3 gènes14 gènes20 gènes

5 gènes

3 x 2 gènes

4 gènes21 gènes

3 gènes

2 gènes

3 gènes14 gènes20 gènes

3 gènes14 gènes20 gènes

5 gènes

3 x 2 gènes

4 gènes21 gènes

5 gènes

3 x 2 gènes

4 gènes21 gènes

3 gènes

2 gènes

Page 6: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

6

C. Prise en compte de critères biologiques indépendants Les annotations et la classification fonctionnelle (selon la Gene Ontology) des gènes impliqués dans les groupes composites-composants sélectionnés ont été exploitées pour rechercher une appartenance commune à une fonction physiologique (voie métabolique, voie de signalisation, phénotype…) pouvant expliquer leur regroupement. Cette évaluation biologique a été complétée en recherchant la conservation des associations topologiques détectées dans le génome complet du riz. On peut effectivement penser que des regroupements de gènes ou de domaines maintenus au cours de l’évolution pour des raisons fonctionnelles sont conservés dans d’autres génomes de plantes. De plus, les données transcriptome disponibles au travers les EST et les étiquettes MPSS (10) ont permis de pondérer les résultats obtenus. Nous avons aussi identifié comme d’excellents candidats, les situations dans lesquelles les protéines issues des gènes composants sont adressées dans le même compartiment cellulaire, condition indispensable à leur interaction directe. Nous avons utilisé pour cela le logiciel PREDOTAR développé dans l’unité (11) qui permet la détection de peptides d’adressage vers les mitochondries, les plastes et le réticulum endoplasmique, ainsi que les prédictions de NLS (Nuclear Localization Signal) du logiciel PSORT (12). De plus, la certitude de l’expression et de la structure intron-exon des gènes composites par la présence d’un ADNc complet a également été prise en compte pour classer les candidats. Toutes les informations biologiques décrites ci-dessus et prises en compte pour la sélection des gènes composants les plus pertinents ont été extraites de FLAGdb++. Enfin, quelques données d’interaction protéine-protéine déjà décrites ont été également exploitées à partir des ressources iPFAM (13) et PDB (14). Tous les résultats obtenus à cette étape sont résumés dans la Figure 4. Au final, 68 groupes sur les 205 contiennent un ou plusieurs couples de gènes composants ayant au moins une donnée qui va dans le sens de la collaboration fonctionnelle de leur produit. Plus un couple est supporté par des données différentes, plus un score (~ ‘probabilité d’interaction’) élevé lui est attribué. La Figure 5 illustre un exemple d’excellent candidat.

Figure 4. Fractions des groupes supportés par chaque type de données biologiques

Figure 5. L’interaction des protéines AT4G13430 et AT2G43090 est considéré comme très probable et sera donc testée prioritairement au niveau expérimental.

annotation fonctionnelle cohérente

0 % 25 % 50 % 75 % 100 %interaction décrite dans iPFAM ou PDB

situation retrouvée chez Oryza sativaco-transcription des composants

fonction moléculaire cohérente (GO)processus biologique commun (GO)

localisation subcellulaire identique

cDNA complet pour le composite annotation fonctionnelle cohérente

0 % 25 % 50 % 75 % 100 %interaction décrite dans iPFAM ou PDB

situation retrouvée chez Oryza sativaco-transcription des composants

fonction moléculaire cohérente (GO)processus biologique commun (GO)

localisation subcellulaire identique

cDNA complet pour le composite

OS02G43830

OS02G03260

Présence chez le riz

45

94

Nbd’EST et

cDNAMolecular Function

Biological Process

Hydro-lyase activity

Lyase activityMetabolismPlastidAconitase

proteinPF00330AT4G13430

MetabolismPlastidAconitase C-term domainPF00694AT2G43090

Gene OntologyLocalisation SubcellulaireFonctionPFAMComposants

OS02G43830

OS02G03260

Présence chez le riz

45

94

Nbd’EST et

cDNAMolecular Function

Biological Process

Hydro-lyase activity

Lyase activityMetabolismPlastidAconitase

proteinPF00330AT4G13430

MetabolismPlastidAconitase C-term domainPF00694AT2G43090

Gene OntologyLocalisation SubcellulaireFonctionPFAMComposants

Page 7: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

7

Des études préliminaires réalisées dans l’équipe ont montré que les regroupements fonctionnels de gènes existaient chez Arabidopsis thaliana : La caractérisation de la famille multigénique des terpène synthases (intervenant dans le métabolisme secondaire) a en effet révélé l’existence d’association en tandem de gènes (TPS et GGPS) codant pour des enzymes impliqués dans la même voie de biosynthèse des isoprénoïdes (15). Par conséquent, les situations dans lesquelles les gènes composants sont co-localisés (peut-être sous le contrôle des mêmes motifs cis-régulateurs) ont été considérées prioritairement. Finalement, nous avons sélectionné 51 groupes pour l’étape de validation expérimentale. Ces 51 groupes les plus pertinents correspondent à 86 couples de composants (interactions possibles) impliquant un total de 131 gènes différents. Ces chiffres sont compatibles avec le budget du projet. Pour conclure cette partie bioinformatique, nous avons tenté d’évaluer si nos critères de sélection des candidats étaient effectivement pertinents. En partant de l’hypothèse que les gènes codant pour des protéines qui interagissent directement sont très probablement co-régulés au niveau transcriptionnel, nous pouvons tester, à l’aide des données microarray disponibles, si nos couples de gènes candidats ont effectivement une tendance à être co-transcrits. Nous avons donc utilisé les résultats de 168 hybridations disponibles dans la base de données CATdb (http://urgv.evry.inra.fr/CATdb) développée par l’équipe pour gérer l’ensemble des données transcriptome générées à l’URGV. Nous avons comptabilisé les conditions d’hybridation où les 2 gènes de chaque couple présentaient un signal d’hybridation significatif. Les résultats obtenus ont été comparés avec le tirage aléatoire de 1000 couples de gènes (Figure 6). Validée par un test statistique (t-test), la comparaison indique clairement que notre sélection de candidats est significativement enrichie en couples de gènes co-transcrits.

Figure 6. Les couples de gènes composants sélectionnés sont préférentiellement co-transcrits D. Vérification expérimentale des interactions directes entre les protéines codées par les couples de gènes composants D1. Clonage des ORF candidats A l’origine du projet, nous pensions utiliser la collection de clones (ORF) du projet ATOME (16) pour tester rapidement les interactions expérimentalement. Parmi les 131 protéines candidates, seulement 22 faisaient partie de la collection ATOME mais du fait de leur répartition dans les différents groupes d’interactions prédits, seule une interaction pouvait être testée à l’aide de la collection ATOME. En préalable aux tests d’interactions, il a donc été indispensable de cloner les ORFs nécessaires aux tests. A l’URGV, dans l’équipe ‘Fonction des Gènes’, nous avons mis au point une méthode de clonage basée sur le système Gateway (Invitrogen). Dans notre approche, nous utilisons des oligonucléotides portant une base dégénérée afin de cloner dans une même réaction des clones portant un ORF ouvert (n’ayant pas de codon stop) et des

56 %8033 %4611 %16142AT3G55400AT3G59980

% 1/0Nb 1/0% 0-0Nb 0-0% 1-1Nb 1-1ConditionsGène 2Gène 1

56 %8033 %4611 %16142AT3G55400AT3G59980

% 1/0Nb 1/0% 0-0Nb 0-0% 1-1Nb 1-1ConditionsGène 2Gène 1

1020304050607080

5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100% de conditions d'hybridation%

de

coup

les c

o-tra

nscr

its

couples de gènes composantscouples de gènes randomcouples de gènes composantscouples de gènes random

Page 8: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

8

clones portant un ORF fermé (avec un codon stop). Dans le but de faire des tests d’interaction dans le système ‘double hybride’, seules les formes portant le codon stop étaient nécessaires (la fusion avec les domaines activateurs et de fixation à l’ADN se faisant du côté N-terminal de la protéine). En revanche, les systèmes d’étude d’interaction in planta nécessitent de tester les interactions en fusion aussi bien N- que C-terminale. Nous avons donc cloné les ORFs en utilisant le schéma ‘ATOME’ afin d’ajouter avant le codon d’initiation de l’ORF les séquences Shine Dalgarno et Kozak permettant l’initiation de la traduction (Figure 7).

Figure 7. Stratégie de clonage et structure des ORF. Les ORFs sont amplifiés par PCR à partir d’ADN matrice dont la nature est différente selon la disponibilité de clones ADNc et la structure du gène codant pour la protéine (Figure 7). Ainsi, nous avons utilisé (lorsque les clones nécessaires étaient disponibles) les collections d’ADNc du consortium SSP (J. Ecker et al, SALK Institute, USA) et du Génoscope. Pour les ORFs absents de ces deux collections, nous avons recherché les modèles de gènes ne portant pas d’intron dans la phase codante et permettant donc une amplification directe à partir de l’ADN génomique. Enfin, les ORFs restants ont été clonés à partir d’un premier brin ADNc (ADN obtenu par action de la réverse transcriptase sur un échantillon d’ARNm purifié à partir de cellules d’Arabidopsis cultivées en suspension). Ci-dessous la répartition des gènes selon leur mode de clonage.

- Collection SSP : 33 gènes - Collection Génoscope : 9 gènes - PCR sur ADN génomique : 10 gènes - RT-PCR sur ARNm : 79 gènes Les protocoles de clonage mis au point au cours du projet ATOME ont été utilisés (site web ATOME : http://www.evry.inra.fr/public/projects/orfeome/orfeome.html). Pour chaque ORF ciblé, 6 clones ont été analysés et nous avons vérifié en particulier si chaque clone possédait ou non un codon stop (par digestion BamHI). Au total, sur 131 gènes ciblés, 84 (64%) constructions portant un codon stop et 60 (46%) constructions ouvertes ont été obtenues. Il faut distinguer les clonages réalisés à partir de clones d’ADNc qui ont un taux de réussite de 80% et ceux faits à partir d’ADN génomique ou de premier brin d’ADNc qui n’ont un taux de clonage que de 43%. Grâce à ces clones, des interactions dans 27 des 51 groupes d’interactions pourront être testées. Ce qui correspond au test de 97 interactions. D2. Etude d’interactions in planta par ‘split DHFR’

ATG (stop)attB1 attB2

Kozak, Shine Dalgarno

ATG (stop)attB1 attB2

ATG (stop)attB1 attB2

Kozak, Shine Dalgarno

ORF

ATG stop

5’ UTR 3’ UTR

ATG stop

5’ UTR 3’ UTR

ADNc clonés

1er brin d’ADNc

ATG stopATG stop

ADN génomique

AUG stop

AAAAA

Page 9: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

9

Dans l’équipe ‘Fonction des Gènes’, nous avons pour objectif de développer une méthode d’étude des interactions protéine-protéine in planta qui permette de travailler à moyen/haut débit. Dans ce but, le système ‘split-DHFR’ est en cours de développement au laboratoire. Il s’agit de reconstituer in vivo des interactions binaires entre deux protéines de fusion portant d’une part les deux protéines X et Y pour lesquelles une interaction est recherchée et d’autre part deux demi-enzymes DHFR qui une fois rapprochées (grâce à l’interaction entre X et Y) reforment une activité détectable. Les complexes peuvent être détectés grâce à l’activité de l’enzyme ou grâce à sa très forte affinité pour le métotréxate. Cette approche, mise au point chez les animaux, a été utilisé avec succès dans des cellules de tabac et de pomme de terre. L’utilisation d’un ligand fluorescent (la fluorescéine-métotréxate) pour révéler la présence de DHFR active permet non seulement la quantification du nombre de complexes mais aussi leur localisation dans la cellule. Au laboratoire nous mettons actuellement au point un système de sélection positive des interactions basé sur l’utilisation d’une forme mutée de la DHFR ayant une forte résistance au métotréxate. Des résultats préliminaires ont montré qu’il est possible de mettre en évidence l’interaction entre deux sous-unité du complexe AKIN d’Arabidopsis (AKINb2 et AKINbg) et entre protéines de type aquaporine à l’aide de ce système. Un certain nombre d’expériences témoins restent nécessaires afin de valider l’utilisation de cette méthode, mais nous espérons pouvoir tester en ‘split DHFR’ les interactions prédites in silico au cours de l’année 2007. D3. Etude des interactions grâce au double hybride chez la levure Malgré nos efforts pour développer une méthode d’étude d’interactions in planta, le système double hybride reste la méthode de choix pour étudier des interactions entre protéines végétales à haut débit. Pour cette raison, notre objectif est de tester les 97 interactions pour lesquelles les clones sont disponibles à l’aide de ce système. Des vecteurs commercialisés par Invitrogen permettent par simple recombinaison de transférer les ORFs des vecteurs d’entrée aux vecteurs nécessaires pour le double hybride. Le transfert des ORFs est actuellement en cours mais nous avons rencontré des problèmes non envisagés lors du transfert dans le vecteur pDEST22. Il semble que la souche que nous possédons au laboratoire présente un problème et nous attendons actuellement l’envoi d’un nouveau plasmide par Invitrogen. Les tests seront effectués dès que ce problème de clonage sera résolu. D4. Bilan fin 2006 En conclusion, les tests expérimentaux prévus dans la deuxième partie du projet (année 2006) ont pris énormément de retard pour plusieurs raisons : Les clones disponibles dans la collection ATOME (plus réduite que prévu à la rédaction du projet) ne permettant le test que d’une seule interaction et il a fallu envisager le clonage de plus d’une centaine de nouveaux ORFs (ce qui n’était pas prévu dans le projet initial). Ce clonage a non seulement retardé le projet mais aussi engendré un surcoût important (financier et humain) non couvert par le projet. De plus, le système DHFR n’étant pas encore optimisé, nous avons choisi d’utiliser le système double hybride avec lequel des problèmes de clonage ont été rencontrés. Néanmoins, l’essentiel des problèmes ayant été résolus, nous espérons obtenir prochainement des résultats expérimentaux pour évaluer les interactions protéine-protéine prédites. De manière générale, grâce à ces résultats expérimentaux, nous pourrons estimer l’importance de tous les paramètres pris en compte lors de la sélection bioinformatique des candidats. Par conséquent, nous pourrons automatiser certaines étapes du criblage in silico pour permettre un débit plus important et son application aux situations non traitées (pour des raisons de combinatoire trop élevée) et éventuellement à d’autres génomes végétaux.

Page 10: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

10

2.3 Collaborations Le projet exploite de nombreuses ressources, tant bioinformatiques que biologiques, réalisées à travers des collaborations impliquant les équipes partenaires du projet. L’expertise de l’annotation structurale des gènes composites a par exemple largement bénéficié des résultats du prédicteur Eugène (9) qui a permis une annotation alternative du génome d’Arabidopsis dans le cadre d’une collaboration entre l’URGV, l’université de Gand (PSB, P. Rouzé et al) et l’INRA de Toulouse (BIA, T. Schiex et al.). Une fraction des erreurs d’annotation révélée par le projet a permis d’alimenter la base de données GeneFarm (17) qui alimente, dans le cadre du consortium international UniProt, la ressource Swiss-Prot (18). Au niveau expérimentale, les ressources ATOME et les collections d’ADNc du Génoscope et du Salk Institute ont été largement utilisées. Enfin, les transcriptomes du projet européen CATMA (16) ont permis une validation expérimentale indirecte de nos prédictions bioinformatiques par une analyse globale originale des données microarray. Ce travail a également suscité une collaboration avec les statisticiens de l’UMR AgroParisTech/INRA MIA 518. 2.4 Publications liées au projet La validation expérimentale des prédictions bioinformatiques pour un nombre significatif de situations est un pré-requis indispensable à la publication de ces travaux. Nous espérons rapidement obtenir les résultats de l’approche double-hybride pour une centaine d’interactions et la confirmation de quelques unes in planta. Ces approches expérimentales sont lourdes à mettre en place et expliquent le décalage entre le début du projet et sa valorisation. Les numéros d’accession des gènes candidats sont volontairement absents de ce rapport dans l’attente d’une publication. 2.5 Autres résultats : structuration, création d’équipe, nouvelles collaborations, thèses…. La gestion des prédictions, des corrections de l’annotation structurale et de toutes les informations biologiques prises en compte, a été possible grâce à la mise en place d’une base de données relationnelle permettant le stockage et l’exploitation de tous ces résultats. Cette base de données (APPI) a été développée sous le système Oracle et interfacée en Perl-CGI (Figure 8). Elle est pour le moment interne à l’URGV mais deviendra consultable après la publication des premiers résultats.

Figure 8. Photo d’écran de la base de données APPI dédiée aux différents résultats du projet.

lien sur PFAM

lien sur FLAGdb++

Résultats de l’expertise

Page 11: ANR AGENCE NATIONALE DE LA RECHERCHE …impbio.lirmm.fr/PROJETS_ACCEPTES/rapports/Bv94_RAPPORT_FINAL… · UMR INRA 1165 - CNRS 8114 - UEVE Adresse postale du laboratoire : 2, Rue

11

Les résultats d’interactions validés seront également accessible au travers l’application FLAGdb++ (8) pour laquelle des développements spécifiques (visualisation d’interactions entre objets biologiques) ont été initiés. Ces nouveaux outils bioinformatiques et les mises au point des méthodes expérimentales (DHFR…) réalisés ici seront largement exploités dans le cadre du projet européen AGRON-OMICS (Hilson et al) qui débute en 2007 et dont l’URGV est partenaire. Enfin, l’identification de gènes composites erronés issus de la fusion de 2 (ou plus) gènes en tandem par les logiciels de prédiction nous ont conduit à systématiser leur recherche et leur détection en utilisant des données microarray. Ce travail d’analyse globale du transcriptome est en cours actuellement (collaborations avec J.-.P Renou, URGV et T. Schiex, BIA…). 2.6 Valorisation : colloques, formation, expositions…. Comme expliqué dans le paragraphe 2.4, la valorisation nécessite les résultats de la partie expérimentale du projet, toujours en cours actuellement. Au delà, des résultats biologiques attendus et de la méthode développée, une valorisation déjà effective est le recrutement des 2 stagiaires qui ont effectué leur stage de master sur le projet : Cyril Pommier (master recherche ‘Application des Mathématiques et de l’Informatique à la Biologie’, Université d’Evry) recruté à l’INRA en tant qu’ingénieur d’étude ; et Nathalie Bailly (master professionnel ‘Ingénierie en Génomique Fonctionnelle’, Paris VII) recrutée dans la société GFI. Références 1. Enright et al (1999) Protein interaction maps for complete genomes based on gene fusion event. Nature 402. 2. Marcotte et al (2000) Detecting protein function an protein-protein interactions from genome sequences. Science 285. 3. Marcotte (2000) Computational genetics : finding protein function by nonhomology methods. Curr Opin Struct Biol 10. 4. Marcotte et al (2002) Predicting functional linkages from gene fusions with confidence. Appl. Bioinformatics 1. 5. Huynen et al (2003) Function prediction and protein networks. Curr Opin Cell Biol 15. 6. Lumbreras et al (2001) Domain fusion between SNF1-related kinase subunits during plant evolution. EMBO Reports 2. 7. Bateman et al (2004) The PFAM protein families database. Nucleic Acids Research 32. 8. Samson et al (2004) FLAGdb++, a database for the functional analysis of the Arabidopsis genome. Nucleic Acids Research 32. 9. Schiex et al (2001) Eugène, an eukaryotic gene finder that combines several sources of evidence. Comput. Biology 2066. 10. Meyers et al (2004) The use of MPSS for whole-genome transcriptional analysis in Arabidopsis. Genome Research 14. 11. Small et al (2004) Predotar: a tool for rapidly screening proteomes for N-terminal targeting sequences. Proteomics 4. 12. Nakai et al (1999) PSORT : a program for detecting the sorting signals of proteins and predicting their subcellular localization. Trends Biochem. Sci. 24. 13. Finn et al (2005) iPFAM : visualization of protein-protein interactions in PDB at domain and amino acid resolutions. Bioinformatics 21. 14. Berman et al (2000) The Protein Data Bank. Nucleic Acids Research 28. 15. Aubourg et al (2002) Genomic analysis of the terpenoid synthase (AtTPS) gene family of Arabidopsis thaliana. Mol. Genet. Genomics 267. 16 Hilson et al (2003) European consortia building integrated resources for Arabidopsis functional genomics. Curr. Opin. Plant Biol. 6. 17. Aubourg et al (2005) GeneFarm, structural and functional annotation of Arabidopsis gene and protein families by a network of experts. Nucleic Acids Research 33. 18. Schneider et al (2005) Plant protein annotation in the UniProt knowledgebase. Plant Physiology 138.