27
LABORATOIRE DE BIOLOGIE COMPUTATIONELLE ET QUANTITATIVE (LBCQ) UMR 7238 CNRS - UNIVERSITE PIERRE ET MARIE CURIE RAPPORT DU PROJET : A DATA BASE INTEGRATING EXPERIMENTAL AND COMPUTATIONAL DATA OF CORYNEBACTERIUM PSEUDOTUBERCULOSIS Encadré par: Juliana BERNARDES 21 MAI 2017 Présenté par : Sana HADDAD Soukaina BENKACEM

Encadré par: Juliana BERNARDES - lcqb.upmc.fr

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

LABORATOIRE DE BIOLOGIE COMPUTATIONELLE ET QUANTITATIVE (LBCQ)

UMR 7238 CNRS - UNIVERSITE PIERRE ET MARIE CURIE

RAPPORT DU PROJET : A DATA BASE INTEGRATING

EXPERIMENTAL AND COMPUTATIONAL DATA OF

CORYNEBACTERIUM PSEUDOTUBERCULOSIS

Encadré par: Juliana BERNARDES

21 MAI 2017

Présenté par :

Sana HADDAD

Soukaina BENKACEM

Page 2: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

1

REMERCIMENT :

Nous tenons à remercier toutes les personnes qui ont contribué à

la réalisation de ce stage. Tout d’abord nos remerciements à Mme

BERNARDES Juliana pour avoir accepté de nous encadrer pour ce

sujet qui nous intéressait tant. Nous la remercions de nous avoir

encadrés, orientés, aidés et conseillés. Nous remercions également Mr

VICEDOMINI Riccardo et Mme LORONADO Monica.

Nous n’oublions pas de remercier nos responsables de formation

Mme CARBONE Alessandra et Mr WEIGT Martin. Ainsi que toutes

les personnes qui par leurs paroles, leurs écrits, leurs conseils et leurs

critiques nous ont guidés dans les moments les plus délicats.

Page 3: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

2

Table des matières

1 Introduction : ................................................................................................................................... 4

2 Matériels et méthodes : .................................................................................................................. 5

2.1 Conception de la base de données ........................................................................................... 5

2.1.1 Présentation et schéma .................................................................................................... 5

2.1.2 Les tables ......................................................................................................................... 6

2.1.3 Le Core-genome, Pan-genome et singletons des souches de C. Pseudotuberculosis. ..... 9

3 Résultats : ........................................................................................................................................ 9

3.1 Informations générales : .......................................................................................................... 9

3.2 Les analyses du Pan-genome, Core-genome et des Singletons. ............................................ 11

3.2.1 Pan-genome. .................................................................................................................. 11

3.2.2 Core-genome. ................................................................................................................ 12

3.2.3 Les Singletons. .............................................................................................................. 13

3.3 Le Core-genome classifié par les catégories fonctionnelles des COG : ................................ 14

3.4 Analyse des domaines ........................................................................................................... 15

3.4.1 Domaines les plus fréquents .......................................................................................... 15

3.4.2 Les domaines différents de chaque biovar .................................................................... 16

4 Conclusions et perspectives : ......................................................................................................... 17

5 Références : ................................................................................................................................... 18

6 Annexes : ....................................................................................................................................... 19

Page 4: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

3

Table des figures

Figure 1: Modèle conceptuel de données ................................................................................................ 6

Figure 2: : Venn diagramme représentant les Core-genomes des 55 souches de C. Pseudotuberculosis

............................................................................................................................................................... 12

Figure 3 : Venn diagramme représentant les Core-genomes des 15 souches de C. Pseudotuberculosis

............................................................................................................................................................... 13

Figure 4 : Nombre des singletons dans toutes les souches .................................................................... 13

Figure 5 : Nombre de singletons des biovars ovis ................................................................................. 14

Figure 6 : Nombre des singletons des biovars equi ............................................................................... 14

Figure 7 : Les Core-genomes de 15 souches de C. Pseudotuberculosis classé par les catégories

fonctionnelles des COG ......................................................................................................................... 15

Figure 8 : Core-genome de 55 souches de C. Pseudotuberculosis classé par les catégories

fonctionnelles des COG ......................................................................................................................... 15

Figure 9 : Les premiers domaines en communs entre les biovars ovis et les biovars equi.................... 16

Figure 10 : Les domaines qui différencient les biovars equi des biovar ovis ........................................ 16

Figure 11 : Les domaines qui différencient les biovars ovis des biovar equi ....................................... 17

Page 5: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

4

1 Introduction :

La Corynebacterium pseudotuberculosis est une bactérie pathogène qui cause plusieurs

maladies chroniques infectieuses et contagieuses. Ce pathogène infecte principalement les deux types

de biovar qui se classifient en fonction de leur capacité à réduire les nitrates. Les bactéries capables

d'effectuer la réduction des nitrates sont classées en biovar equi (réduction de nitrate positive,

principalement isolée de chevaux et bovins) alors que les bactéries qui ne peuvent pas effectuer la

réduction de nitrate appartiennent à biovar ovis (réduction de nitrate négative, fréquemment isolée de

moutons et chèvres) [1][2].

Les infections produites par les C. Pseudotuberculosis peuvent causer la mort des animaux et

la réduction de la production de laine pour les ovins et les caprins, elle peut toucher aussi la production

du lait et de la viande pour les équidés et les bovins ce qui provoque des pertes économiques très

importantes pour l’industrie agricole.

Récemment, une comparaison génomique, de 15 souches de C. Pseudotuberculosis, a été

réalisée [3]. Cependant, les données expérimentales et computationnelles de cette étude n’ont pas été

rassemblés et aucune base de donnée n’a été créée. La création d’une base de données qui permet de

rassembler toutes les informations nécessaires nous parait essentiel pour retrouver des données

centralisées (pour limiter les redondances), structurées et cohérentes qui peuvent être facilement

manipulées selon les besoins en quelques lignes de requêtes. Pour cela, nous proposons dans ce travail

d’élargir l’analyse réalisée dans [3] pour considérer les génomes de 55 souches disponibles au NCBI

[4], et construire une base de données qui permet de rassembler toutes les informations expérimentales

et computationnelles de C. Pseudotuberculosis qui va nous permettre par la suite de les interpréter et

les analyser afin de :

• Comprendre les différences entre les bactéries qui provoquent des maladies chez

les différents biovars : Ovis et Equi,

• Identifier des gènes orthologues et spécifique de chaque souche,

• Possiblement retrouver les gènes présents dans des voies métaboliques associées à

la maladie.

Nous avons conçu une base de données de C. Pseudotuberculosis, sur laquelle nous avons basé les

analyses du Pan-genome (le nombre total des groupes des genes orthologues), du Core-genome

qui regroupe les gènes qui se trouvent dans toutes les souches, et des singletons qui représentent les

gènes qui se trouvent uniquement dans une souche spécifique. Ensuite, nous avons effectué une

classification des Core-genomes selon les catégories fonctionnelles des COGs [5]. Enfin, nous avons

effectué une analyse des domaines pour mettre en évidence les domaines communs entre toutes les

souches ainsi que les domaines spécifiques des biovars equi et ovis.

Page 6: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

5

2 Matériels et méthodes : 2.1 Conception de la base de données

2.1.1 Présentation et schéma

Une base de données relationnelle consiste à stocker toutes les informations dans des tables

structurées, avec des relations qui lient les tables entre elles. Le but de l'ensemble étant d'éviter de

dupliquer des données (chaque information n'est stockée qu'à un seul endroit, il n'y a pas de

redondance), et d'optimiser au maximum les performances pour pouvoir accéder aux données et les

présenter sous une forme qui nous intéresse. Au cours de ce travail nous avons choisi de travailler avec

MySQL [6], un système de gestion de Base de Données relationnel qui permet de créer, utiliser et

maintenir des bases de données relationnelles d’une façon simple et efficace.

La conception de la base de données a été faite par PowerDesigner [7] (autrement appelé

PowerAMC), qui est un logiciel de conception permettant de modéliser les bases de données associées

de manière graphique. Sur la figure 1, nous avons représenté le Modèle entité association de la base de

données. Chaque table est caractérisée par un nom, des attributs et leur type avec les contraintes

d’intégrités s’elles existent (<pi> pour primary key, <O> pour Obligatoire, <fk> pour foreign key).

Les associations qui lient les tables permettent à l’aide des cardinalités de comprendre les

règles de gestion :

• Un gène est présent dans une et une seule souche, une souche peut avoir plusieurs

gènes.

• Un gène correspond à une seule séquence, une séquence peut être liée à plusieurs

gènes.

• Un gène appartient à un ou plusieurs groupes orthologues, un groupe orthologue peut

avoir plusieurs gènes.

• Une séquence est liée à un ou plusieurs Coghits, un Coghits correspond à une seule

séquence.

• Une séquence est liée à un ou plusieurs CladeHits, un CladeHits correspond à une et

une seule séquence, où CladeHits sont les domaines hits associés à chaque séquence et

trouvés par CLADE (voir section 21.7 pour plus de détails)

Page 7: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

6

Modèle conceptuel de données :

Figure 1: Modèle conceptuel de données

2.1.2 Les tables

2.1.2.1 La table Strains.

La table Strains contient les informations sur les 55 souches de C.pseudotuberculosis etudiées dans ce

travail, Cette table a comme attributs :

• strainID : l’identifiant de la souche (clé primaire)

• Biovar : le biovar de la souche (Ovis ou Equi)

• Size : la taille de génome

• GC% : pourcentage de GC

• Genes : le nombre de gènes

• Proteins : le nombre de Proteins

• Clinical Description : La description

• Country of isolation : les pays d’isolation

• Host :

Le box 1 de l’annexe montre la requête SQL utilisée pour charger la table à partir du fichier

StrainInfo.xlsx extrait du site de NCBI, qui contient les informations générales des souches du C.

Pseudotuberculosis.

Page 8: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

7

2.1.2.2 La table gènes

La table gènes regroupe toutes les informations sur tous les gènes de 55 souches, elle a comme

attributs :

• geneID : l’identifiant de la séquence protéique (clé primaire).

• taxon : L’identifiant du taxon de C. Pseudotuberculosis

• sequenceID : l’identifiant de la séquence protéique dans la table séquence, c’est une clé

étrangère issue de l’association (un à plusieurs) avec la table Sequence.

• strainID : L’identifiant de la souche à laquelle la séquence protéique appartient, c’est une clé

étrangère issue de l’association (un à plusieurs) avec la table Strains.

Voir le Box 2 et 3 de l’annexe pour voir comment cette table a été remplie à partir de la table Genes

2.1.2.3 La table Gène-groupe

Cette table issue de l’association plusieurs-plusieurs entre la table « genes » et la table « Groupe-

ortologue », elle permet de trouver pour chaque gène le(s) groupe(s) orthologue(s) au(x)quel(s) il

appartient. Elle contient comme attributs :

• GroupeID : le groupe orthologue auquel appartient la séquence protéique.

• geneID : l’identifiant de la séquence protéique.

Le couple composé des deux attributs (GroupeID, geneID) représente la clé primaire de cette table.

Voir code 1 de l’annexe et les Box 8 pour voir comment cette table a été remplie.

2.1.2.4 La table Sequence :

Les séquences non redondantes de la table gènes ont était insérées dans une table à part appelée

séquence. Cette table contient deux colonnes :

• SequenceID : contient un identifiant de la séquence (clé primaire de la table )

• Sequence : la sequence proteique

Voir le Box 4 de l’annexe pour voir comment cette table a été remplie à partir de la table Sequence.

2.1.2.5 La table CladeHits:

Les protéines sont généralement constituées d'une ou plusieurs régions fonctionnelles,

généralement appelées domaines. La présence de différents domaines dans différentes combinaisons

dans différentes protéines donne naissance au répertoire varié des protéines trouvées dans la

nature. L'identification des domaines présents dans une protéine peut donner une idée de la fonction de

cette protéine. Dans ce travail, nous proposons de faire une analyse de ces domaines. Pour cela on a

utilisé CLADE [8] et PFAM [9].

La base de données PFAM est une grande collection de familles de domaines

proteiques. Chaque famille est représentée par des alignements de séquences multiples et un modèle

Markov caché (HMM [10]). Chaque famille Pfam consiste à aligner une partie de la sequence

contenant un petit ensemble de membres représentatifs de la famille, des modèles Markov cachés

profil (profil HMM) construits à partir cet alignement et un alignement complet généré

automatiquement, qui contient toutes les séquences de protéines détectables appartenant à la famille,

telles que définies par les recherches des bases de données de séquences primaires par HMM de profil.

CLADE prend comme entrée un fichier de séquence protéique. Comme nous avons beaucoup

de répétitions au niveau des séquences, nous avons d’abord interrogé la base de données pour obtenir

l’ensemble de séquences uniques (voir Box 4), puis CLADE a été exécuté sur cet ensemble. Il en

Page 9: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

8

résulte un fichier contenant les domaines hits associé à chaque séquence qui a été ensuite chargé dans

la table CladeHits (voir Box 5 de l’annexe).

La table CladeHits contient les domaines et la séquence auquel ils appartiennent. Elle a comme

attributs :

• CladeHitID : l’Identifiant du domaine hit trouvé. C’est la clé primaire de la table.

• Id-sequence : l’identifiant de la séquence auquel appartient le domaine, c’est une clé

étrangère issue de l’association un à plusieurs avec la table « séquence ».

• Start_hit : la position du début du domaine dans la séquence.

• End_hit : la position de fin du domaine dans la séquence.

• Pfam_domain_name : le nom du domaine.

• Pfam_acc_number : le numéro du domaine (identifiant de PFAM).

• Evalue : le E-value du domaine hit trouvé.

• CLADE_Model : le modèle CLADE.

• START_Domain : La position du début dans le domaine.

• END_Domain : La position de fin dans le domaine.

2.1.2.6 La table cogs :

L’identification des gènes orthologues permet de faire une analyse des voies métaboliques. La

classification automatique utilisée pour construire les Clusters de Groupes d'Orthologues

(COGs)[5][11] est la principale procédure d'identification des orthologues chez les organismes

procaryotes entièrement séquencés (Tatusov et al. 2000, 2001). La base de données COGs [5] a été

conçue comme une tentative pour classer les protéines dans certaines catégories fonctionnelles à partir

de génomes complètement séquencés sur la base du concept d'orthologie. La classification est faite par

comparaison des protéomes de tous les génomes entre eux avec BLAST. On est allé sur le site de

RPS-BLAST [12], qui est un algorithme qui permet la comparaison d'une séquencé query contre une

base de données de PSSM (position-specific scoring matrices), et qui facilite la classification et

l'annotation fonctionnelle d'une séquence. Pour importer le fichier qui contient les séquences

proteiques non répétées, il nous a fallu le partager entre 5 sous fichiers : le nombre maximale de

« sequence query » étant de 4000.A partir de ces analyses, Il en résulte 5 fichier hitdata.txt, qu’on a

regroupés dans un seul fichier, à partir duquel le fichier cogs.txt a été parsé et inséré dans la table

cogs.(Voir Box 6 et 7 de l’annexe).

Cette table contient deux colonnes :

• cogID : l’identifiant du COG (cluster of orthologous groups)

• catégorie : la catégorie fonctionnelle à laquelle appartient chaque COG.

2.1.2.7 la table coghit

Cette table permet de trouver pour chaque séquence les catégories fonctionnelles auxquelles

elle appartient. Elle a comme attributs :

• CoghitID : l’identifiant du COG hit, c’est la clé primaire de cette table.

• sequenceID : l’identifiant de la séquence. C’est une clé étrangère issue de la relation un

àplusieurs avec la table « Cogs »

• startPosition : la position début du COG dans la séquence.

• endPosition : la position de la fin du COG dans la séquence.

• Evalue : E-value du COG hit.

Page 10: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

9

• Bitscore : bit score du COG hit.

• CogID : l’identifiant du COG. C’est une clé étrangère issue de la relation un à plusieurs avec

la table « Cogs »

• Voir Box 9 de l’annexe pour savoir comment on a rempli la table coghit à partir du fichier

hitdata parsé parse.txt

2.1.3 Le Core-genome, Pan-genome et singletons des souches de C. Pseudotuberculosis.

Le Pangenome est défini comme le nombre total des groupes des genes orthologues. Le Core-

genome est défini comme l’ensemble des gènes orthologues qui sont partagés entre toutes les souches.

Les singletons sont les genes spécifiques de chaque espéce (un singleton n’est présent que dans une

seule espéce ). Pour pouvoir faire des analyses sur les sequences proteiques des différentes souches du

C. Pseudotuberculosis, on doit connaitre les genes orthologues. Le logiciel EDGAR (Efficient

Database framework for comparative Genome Analyses using BLAST score Ratios) [13] permet

d'effectuer une tâche essentielle dans la génomique comparative, qui est l'identification des gènes

orthologues dans différents génomes et la classification des gènes comme Core-genome ou singletons.

EDGAR est conçu pour effectuer automatiquement des comparaisons génomiques dans une

approche à haut débit. Il fournit de nouvelles fonctionnalités d'analyse et simplifie considérablement

l'analyse comparative des génomes en offrant plusieurs fonctionnalités via une interface utilisateur

basée sur le web et indépendante de la plate-forme

Par manque d’information et d’outils, on a contacté l’equipe de EDGAR, pour mettre à jour

leur base de données de Corynebacterium qui ne contenait que les 15 souches de C.pseutuberculosis

sur lesquels ils ont travaillé. Ainsi on a pu faire les analyses et calculer le Pan-genome, Core-genome

et les singletons. En effet, le Core-génome a été calculé comme étant le sous ensemble de genes qui

présentent des groupes orthologues dans toutes les souches de C. Peudotuberculosis. Les gènes d’une

souche A ont été comparées aux gènes d’une souche B, et seules les gènes qui ont des orthologues

dans les deux souches ont été retenues. On refait la comparaison entre le Core-genome AB et le

génome de l’souche C, et ainsi de suite (voir les Box 10, 11, 12,13 et 14 de l’annexe pour voir

comment extraire cette information de la base de données ). Le Pan-génome a été calculé comme

suit : le Pan-genome initial contient des gènes d’une souche A, des gènes non orthologues de l’souche

B. le résultat à été comparé avec les gènes de l’souche C, et la comparaison continue ainsi avec tous

les génomes des souches restantes. Les singletons sont les gènes qui n’ont pas d’orthologues dans les

génomes de toutes les souches. (voir les Box 15, 16 et 17 de l’annexe)

Le résultat donné par EDGAR est donné sous forme d’un fichier (pangenome.csv). Les

données sont organisées dans ce fichier d’une manière que les gènes orthologues sont regroupées

ensemble.

3 Résultats :

3.1 Informations générales :

Les séquences génomiques des 55 souches ont étaient extraites de la base de données du NCBI,

avec le nombre de proteines et de genes par genome. On a extrait 27 biovars equi (chevaux, vaches,

etc) et 28 biovars ovis (moutons, chévres, etc). Dans le tableau 1 on présente les informations

générales de ces souches, à savoir leurs pays d’isolation, les descriptions cliniques, etc. Les souches

ont étaient isolées de différents pays, à savoir l’Australie, l’Amérique du sud, le Brésil, l’Argentine..

Ces animaux manifestent des symptomes cliniquesc : des infections incluent les abscess, mammary

tissue.. Les lignes en gris correspondent aux 15 C. Pseudotuberculosis sur lesquels les analyses ont

Page 11: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

10

déjà était faites [3]. Dans ce travail nous avons refait ces analyses en rajoutant 40 autres souches de C.

Pseudotuberculosis.

Strain Biovar Size (Mb) GC% Genes Proteins Clinical description Country of isolation host

C231 Ovis 2,32821 52,2 2086 1973 caseous lymphadenitis abscess Brazil sheep

FRC41 Ovis 2,33791 52,2 2102 2000

1002 Ovis 2,33511 52,2 2095 1987 caseous lymphedenitis abscess Brazil goat

I19 Equi 2,33773 52,2 2098 1980 mastitis abscess

bovine

PAT10 Ovis 2,33532 52,2 2097 1967 lung abscess Argentina sheep

42/02-A Ovis 2,33761 52,2 2101 1996 ovine abscess Australia

CIP 52.97 Equi 2,32059 52,1 2088 1920 lymphangitis Kenya horse

1/06-A Equi 2,27912 52,2 2053 1850 equine field isolate California

3/99-5 Ovis 2,33794 52,2 2102 1997

naturally-occurring caseous

lymphadenitis Scotland sheep

316 Equi 2,31041 52,1 2070 1911 abscess California horse

P54B96 Ovis 2,33766 52,2 2097 1938 caseous lymphadenitis abscess South Africa

wildebee

st

267 Ovis 2,33763 52,2 2096 2006

abscess from caseous

lymphadenitis USA llama

31 Equi 2,40296 52,1 2174 2077 oedematous skin disease Egypt buffalo

258 Equi 2,36982 52,1 2133 2011 ulcerative lymphangitis Belgium horse

Cp162 Equi 2,29346 52,2 2051 1881

caseous lymphadenitis neck

abscess United Kingdom camel

48252 Ovis 2,33814 52,2 2096 1977 Hospital Oslo

Homo

sapiens

CS_10 Ovis 2,33814 52,2 2101 1982

Laboratory strain, originating

from goat Oslo

Ft_2193/67 Ovis 2,3383 52,2 2101 1990 pus Oslo goat

VD57 Ovis 2,33718 52,2 2097 1986

granulomatous lesion of goat

with cadeous lymphadenitis Brazil Goat

226 Ovis 2,33782 52,2 2095 1936 Abscess USA: CA goat

12C Ovis 2,33745 52,2 2098 1982 abscess of sheep with CLA Brazil: Petrolina,PE sheep

29156 Equi 2,33865 52,2 2100 1993

Cutaneous lesion from bovine

infected

bovine

262 Equi 2,32575 52,2 2067 1926 milk Belgium

Bos

taurus

E19 Ovis 2,36796 52,1 2134 2020 not informed

Equus

caballus

PO269-5 Ovis 2,33712 52,2 2096 2007 pus Portugal goat

1002B Ovis 2,33511 52,2 2096 1992

Biological sample: caseous

abscess Brazil:Bahia goat

N1 Ovis 2,33785 52,2 2098 1989

Sample was collected from

caseous material in the lung of a

native sheep

Equatorial Guinea:

Mongomo sheep

PA01 Ovis 2,33792 52,2 2097 2006 lymph node Brazil: Para sheep

MEX25 Ovis 2,33753 52,2 2099 1991

Mexico: Guanajuato

Ovis

aries

PO222/4-1 Ovis 2,33751 52,2 2100 1996 pus Portugal goat

E56 Ovis 2,33577 52,2 2097 1967

Egypt

Ovis

aries

MB11 Equi 2,36342 52,1 2133 1902

USA: California Equus

Page 12: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

11

ferus

caballus

MB14 Equi 2,37076 52,1 2139 1938

USA: California

Equus

ferus

caballus

MB30 Equi 2,36438 52,1 2136 1966

USA: California

Equus

ferus

caballus

MB66 Equi 2,3722 52,1 2141 1937

USA: California

Equus

ferus

caballus

E55 Ovis 2,33538 52,2 2095 1963 biological sample of sheep Egypt:Cairo sheep

MEX9 Ovis 2,33758 52,2 2104 1996 Prescapular of a female goat Mexico Goat

PA02 Ovis 2,32843 52,2 2091 2001 Abscess Brazil goat

T1 Ovis 2,3372 52,2 2101 1993 granulomatous lesion Brazil goat

Cp13 Ovis 2,34224 52,2 2104 1992 Caseous lymphadenitis of goats Brazil goat

MEX29 Ovis 2,33787 52,2 2100 2002

biological sample of female

sheep Mexico

Ovis

aries

34 Equi 2,40345 52,1 2174 2054

Egypt

Bubalus

bubalis

32 Equi 2,40353 52,1 2176 2049

Egypt

Bubalus

bubalis

33 Equi 2,40355 52,1 2178 2047

Egypt

Bubalus

bubalis

35 Equi 2,4035 52,1 2179 2050

Egypt

Bubalus

bubalis

36 Equi 2,40341 52,1 2172 2046

Egypt

Bubalus

bubalis

38 Equi 2,40352 52,1 2174 2043

Egypt

Bubalus

bubalis

39 Equi 2,40358 52,1 2172 2046

Egypt

Bubalus

bubalis

43 Equi 2,36508 52,1 2133 2011

Egypt

Bubalus

bubalis

46 Equi 2,36657 52,1 2128 2008

Egypt

Bubalus

bubalis

48 Equi 2,4033 52,1 2176 2052

Egypt

Bubalus

bubalis

I37 Equi 2,37028 52,1 2169 2023 mammary tissue

Bos

taurus

MEX30 Equi 2,36814 52,1 2191 2009 male horse Mexico

Equus

caballus

MEX31 Equi 2,36788 52,1 2182 2056 male horse Mexico

Equus

caballus

MB20 Equi 2,3709 52,1 2141 1880 pectoral abscess USA

Equus

caballus

Tableau 1 : Les informations générales des 55 souches de C. Pseudotuberculosis utilisées dans ce travail

3.2 Les analyses du Pan-genome, Core-genome et des Singletons.

3.2.1 Pan-genome.

Pour avoir une meilleure vue sur les 55 génomes du C. Pseudotuberculosis, le Pan-genome a

été généré par le logiciel EDGAR, (voir section 2.3). Le nombre du Pan-genome est de 2831 gènes,

soit 1.3 fois le nombre moyen des gènes de toutes les souches. Le nombre du Pan-genome des gènes

du biovar ovis est de 2618, soit 1.24 fois le nombre moyen des gènes des souches du biovar ovis qui

est de 2099 gènes ; et le nombre du Pan-genome des gènes du biovar equi est de 2644, soit 1.23 fois le

Page 13: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

12

nombre moyen des gènes des souches du biovar equi qui est de 2138 gènes. En comparant ces

résultats aux résultats obtenus à partir des 15 C. Pseudotuberculosis, on trouve que le rapport : nombre

du Pan-genome / nombre moyen des gènes (2782 / 2078) est égal à celui qu’on a trouvé pour les 55

souches (1.33), le rapport fait sur le Pan-genome des souches des biovars ovis (2403/2098) est

légèrement inférieur à notre résultat (1.14 < 1.24) et le rapport fait sur le Pan-genome des souches des

biovars equi (2521/2047) est égal à notre résultat ( 1.23).

3.2.2 Core-genome.

Le Core-genome des souches est défini comme l’ensemble des gènes orthologues qui sont

partagés entre toutes les souches. Le Core-genome du C. Pseudotuberculosis contient 1139 gènes, (le

Box 10 contient la requête qui a permis de calculer le nombre de Core-genome) ce qui présente 40.2 %

du Pan-genome de toutes les souches (2831 gènes). La figure 2 montre l’intersection entre le Core-

ovis et le Core-equi

De même, on a calculé le nombre de Core-ovis (nombre de Core-genome des biovars ovis),

qui est de 1598 (Box 13 de l’annexe contient la requête qui a permis d’avoir ce résultat ), dont 458

exclusifs au biovar ovis (partagés entre toutes les souches de ce biovar et absents d’une souche ou plus

du biovar equi) voir le Box 12 de l’annexe pour voir comment on a pu extraire l’information de la base

de données. De plus, on trouve 1267 gènes (voir Box 14 de l’annexe) du Core-genome des biovars

equi, soit 128 gènes orthologues (voir Box 11 de l’annexe) partagés entre toutes les souches de ce

biovar et absents d’une souche ou plus du biovar ovis.

En comparant ces résultats aux résultats des analyses faites uniquement sur les 15 souches de

C. Pseudotuberculosis (figure 3), on trouve que le nombre de Core-genome des 55 souches à diminué

(1504 pour les 15 souche et 1139 pour les 55 souche). On remarque d’après ces résultats que le

nombre de Core-genome tend à diminuer quand le nombre de génomes augmente.

Figure 2: : Venn diagramme représentant les Core-genomes des 55 souches de C. Pseudotuberculosis

Page 14: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

13

Figure 3 : Venn diagramme représentant les Core-genomes des 15 souches de C. Pseudotuberculosis

3.2.3 Les Singletons.

Les singletons sont les gènes qui n’ont pas de gènes orthologues dans les génomes de toutes

les souches, unique à la souche. Le résultat du calcul des singletons montre que toutes les souches

n’ont pas des singletons, voir figure 4. On trouve des singletons dans 27 souches (voir Box 15 de

l’annexe qui montre comment on peut savoir le nombre de singletons par souche), partagées entre 16

souches du biovars ovis (voir figure 5 et Box 16 de l’annexe) et 11 du biovars equi (voir figure 6 et

Box 17 de l’annexe).

Mais malgré que le nombre des souches ayant des singletons est plus grand chez les biovars

ovis que chez les biovars equi, le nombre total de gènes singletons des biovars ovis et inférieur au

nombre de gènes singletons trouvés dans les biovars equi (77 et 116 respectivement). Les souches

du biovar equi présentent des niveaux de variabilité plus élevés dans le nombre de singletons, par

rapport aux souches biovar ovis.

Figure 4 : Nombre des singletons dans toutes les souches

0

5

10

15

20

25

12

C

1_0

6-A

22

6

25

8

26

2

26

7

31

31

6

34

3_9

9-5

42

_02

-A

48

25

2

C2

31

CIP

_52

.97

Cp

13

Cp

16

2

CS_

10

E19

E5

6

FRC

41

Ft_

21

93

_67

I37

MB

20

MB

30

MEX

25

PA

02

PO

26

9-5

Number of singletons (all genomes)

Number of singletons (all genomes)

Page 15: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

14

Figure 5 : Nombre de singletons des biovars ovis

Figure 6 : Nombre des singletons des biovars equi

3.3 Le Core-genome classifié par les catégories fonctionnelles des COG :

Les analyses qui ont été faites sur le Core-genome des 15 C. Pseudotuberculosis (figure 7) révèlent

que le Core-genome de toutes les souches, celui des biovar ovis et celui des biovars equi, ont été

classifié selon les catégories fonctionnelles. Selon la figure 7, le Core-genome de toutes les souches a

un nombre important de gènes appartenant aux catégories « metabolism » et « Information Storage

and procession ». Par ailleurs, en analysant séparément le Core-genomes des biovars equi (en vert) et

celui des biovars ovis (en rouge), on remarque qu’une partie plus importante des gènes « Poorly

characterized » a été détectée comparant avec le Core-genome de toutes les (en bleue).

D’autre part, les analyses faites sur le Core-genome des 55 souches de C. Pseudotuberculosis

(figure 8) ont montré que le nombre des gènes de la catégorie « Poorly characterized » a

considérablement diminué, pour le Core-genome de toutes les souches, celui des biovars ovis et celui

des biovars equi. La catégorie « metabolism » réserve la partie la plus importante des Core-genomes

de toutes les souches, du biovar ovis et du biovar equi, la catégorie « Information store and

processing » en deuxième position et finalement la catégorie « Cellular process and signaling ». On

peut aussi remarquer que le nombre de Core-all (nombre de Core-genome de toutes les souches ) est

dans tous les cas supérieur au nombre de Core-ovis ( nombre de Core-genome des biovars ovis ) qui

est supérieur au nombre de Core equi ( nombre de Core-genome des biovars equi).

Voir les Box 17 jusqu’au Box 28 pour plus de détails sur comment on a trouvé ces résultats.

0

5

10

15

Number of singletons (Ovis strains)

0

5

10

15

20

25

1_06-A 258 262 31 316 34 CIP_52.97 Cp162 I37 MB20 MB30

Number of singletons (Equi strains)

Number of singletons (Equi strains)

Page 16: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

15

Figure 7 : Les Core-genomes de 15 souches de C. Pseudotuberculosis classé par les catégories fonctionnelles des COG

Figure 8 : Core-genome de 55 souches de C. Pseudotuberculosis classé par les catégories fonctionnelles des COG

3.4 Analyse des domaines

3.4.1 Domaines les plus fréquents

Dans cette section, nous avons fait une analyse des domaines (voir section 2.1.2.5) chose qui

n’a pas été faite auparavant. En effet, l’identification des domaines dans le génome peut nous informer

quant fonctions des séquences protéiques. La figure 9 montre les domaines en commun entre les

biovars ovis et les biovars equi (Voir les Box 29 et 30 de l’annexe).

0

2

4

6

8

10

12

1.Information Store andProcessing

2.Cellular Process andSignaling

3.Metabolism 4.Poorly Charactirized

core all (1139 genes)

core ovis (458 genes )

core equi (128 genes)

Page 17: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

16

Figure 9 : Les premiers domaines en communs entre les biovars ovis et les biovars equi

3.4.2 Les domaines différents de chaque biovar

Les biovars equi des C. Pseudotuberculosis réservent 38 domaines différents qui ne se

trouvent que chez les souches des biovars equi (figure 9, Box 36 de l’annexe).

Figure 10 : Les domaines qui différencient les biovars equi des biovar ovis

Les biovars ovis des C. Pseudotuberculosis réservent 13 domaines différents qui ne se

trouvent que chez les souches des biovars ovis (figure 10, Box 37 de l’annexe).

020406080

100120140160

AB

C_

ATP

ase

BP

D_t

ran

sp_

1

AB

C_

tran

CB

S

PA

STA

Znu

A

FctA

FecC

D

HA

TPas

e_c

AA

A_

21

DEA

D

AM

P-b

ind

ing

AB

C_

me

mb

ran

e

SBP

_bac

_5

NU

DIX

DU

F20

29

Am

ino

tran

_1_

2

LGFP

Per

ipla

_BP

_2

Hta

A

olig

o_H

PY

Hex

apep

Rad

ical

_SA

M

Top

rim

_C_r

pt

TetR

_N

PP

-bin

din

g

TP_

met

hyl

ase

Res

po

nse

_re

g

Bio

tin

_lip

oyl

Ald

edh

AM

P-b

ind

ing_

C

FtsX

Pri

bo

sylt

ran

Domaines communs entre les biovars ovis et les biovars equi

ovis equi

0

0,5

1

1,5

2

2,5

3

3,5

Domaines uniques des Equi

Page 18: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

17

Figure 11 : Les domaines qui différencient les biovars ovis des biovar equi

4 Conclusions et perspectives : La création d’une base de données permet de rassembler les données expérimentales et

computationnelles et facilite l’accès à l’information : Il suffit d’une requête pour obtenir le résultat

souhaité. Elle aide ainsi à résoudre des problèmes, à répondre à des questions et à prendre des

décisions. Durant ce travail, nous avons fait des analyses des génomes, des Pan-genomes et des Core-

genomes. Nous avons aussi commencé de faire des analyses des domaines. Nous prévoyons par la

suite de finir ces analyses et de développer un site web qui permettra de rendre accessibles les

informations expérimentales et computationnelles de C. Pseudotuberculosis.

0

0,5

1

1,5

2

2,5

Domaines uniques des Ovis

Page 19: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

18

5 Références :

[1] Dorella FA, Pacheco LG, Oliveira SC, Miyoshi A, Azevedo V. Corynebacterium

pseudotuberculosis:microbiology, biochemical properties, pathogenesis and molecular studies

of virulence. Vet Res 2006;37:201-218 10.1051/vetres:2005056 [PubMed] [Cross Ref]

[2] Biberstein EL, Knight HD, Jang S. Two biotypes of Corynebacterium pseudotuberculosis.

Vet Rec1971; 89:691-692 10.1136/vr.89.26.691 [PubMed] [Cross Ref]

[3] Soares, S. C., Silva, A., Trost, E., Blom, J., Ramos, R., Carneiro, A.,... & Barbosa, E. G.

(2013). The Pan-genome of the animal pathogen C. Pseudotuberculosis reveals

differences in genome plasticity between the biovar ovis and equi strains. PLoS One, 8(1),

e53818.

[4] The National Center for Biotechnology Information : https://www.ncbi.nlm.nih.gov/

[5] http://www.ncbi.nlm.nih.gov/COG/

[6] https://www.mysql.com/fr/

[7] http://powerdesigner.de/en/overview/

[8] BERNARDES, J. S.; VIEIRA, F. R. J; ZAVERUCHA, G.; CARBONE, A.; A multi-

objective optimisation approach accurately resolves pro tein domain architectures.

Bioinformatics. 2016 32(3):345–353

[9] http://pfam.xfam.org/help

[10] http://www.nature.com/nbt/journal/v22/n10/full/nbt1004-1315.html

[11] thése : Contribution à la prédiction de la fonction des gènes par l’analyse de leur contexte

génomique et de leur co-évolution

[12] http://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

[13]https://edgar.computational.bio.uni-giessen.de/cgi-

bin/edgar_login.cgi?cookie_test=1&open=1

Page 20: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

19

6 Annexes : Box 1 : Requête pour remplir la table Strains

LOAD DATA LOCAL INFILE ‘strains.xlsx’ into table strains FIELDS TERMINATED BY '\t'

LINES TERMINATED BY '\n';

Cette requête remplit la table strains à partir d’un fichier strains.xlsx

généré par NCBI qui contient les informations générales des souches

Box 2 : Requête qui permet de remplir les colonnes geneID , taxon ,

sequence de la table genes (exemple pour la souche '1_06-A'

LOAD DATA LOCAL INFILE '1_06-A.faa.ftt' INTO TABLE genes FIELDS TERMINATED BY '\t'

ESCAPED BY '>' LINES TERMINATED BY '\n';

Cette requête et celle du box 3ont été refaites 55 fois (pour les 55

souches) en utilisant à chaque fois les fichiers téléchargés à partir du

site du NCBI.

Box 3 : Requête qui permet de remplir la colonne strainID de la table

genes

UPDATE genes SET strainID ='1_06-A' WHERE strainID IS NULL;

Box 4 : Requête qui permet de remplir la table sequence

INSERT INTO sequence (sequence) SELECT DISTINCT sequence FROM genes ;

Box 5 : Requête qui a permis de charger le fichier archs.xlsx dans la table

CladeHits

LOAD DATA LOCAL INFILE ‘archs.xlsx’ into table pfam FIELDS TERMINATED BY '\t' LINES

TERMINATED BY '\n';

Box 6 : commande utilisée pour parser le fichier hitdata.txt

touch parse.txt

sed '/^#.*/d' hitdata*.txt | cut -d$ '\t' -f2,f3,f5,f6,f7 >> parse.txt

Box 7 : Requête qui permet de remplir la table cogs

LOAD DATA LOCAL INFILE ‘cogs.txt' INTO TABLE cogs FIELDS TERMINATED BY '\t'

LINES TERMINATED BY '\n' ;

Box 8 :

Les deux fichiers ont été importés dans la base de données : chaque fichier a été

mis dans une table différente par la requete :

LOAD DATA LOCAL INFILE ‘C:/Users/houss/Desktop/liste_genes.csv’ into table

genes_groupes_ortholoques FIELDS TERMINATED BY '\t' LINES TERMINATED BY

Page 21: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

20

'\n';

Chaque table contient une colonne pour le contenu du fichier et une autre colonne ID

auto-increment.Ainsi on obtient deux tables : table genes : avec les colonnes genes

et ID (auto incrément) et la table groupes avec colonnes groupe et ID.On créé une

colonne dans la table genes avec la requete suivante :

insert into genes_groupes_ortholoques select g from groupes_orth where

genes.ID = groupes.ID

La nouvelle table s’appelle désormais groupes_orth avec les colonnes

gene pour les ID des genes et g pour le groupe orthologue auquel il

appartient.

Box 9 : Requête qui permet de charger le fichier parse.txt dans la table

coghit

LOAD DATA LOCAL INFILE ‘parse.txt’ into table coghit FIELDS TERMINATED BY '\t' LINES

TERMINATED BY '\n';

Box 10 : Requête qui permet d’avoir le nombre exact de coregenome dans

toutes les souches

select count(gene),g from genes_orth group by g having count(gene)=55 ;

Nous avons utilisé cette requête pour calculer le nombre de coreall (les

genes orthologues qui se trouvent dans toutes les souches) qui a renoyé

comme resultat 1139 genes.

Box 11 : Requête qui permet d’avoir le nombre de coregenome specifique des

biovars equi

select count(DISTINCT genes_edgar), groupe_orthologue

from genes,strains ;

where genes.strainID=strains.strainID AND strains.biovar="Equi" AND

groupe_orthologue NOT IN (SELECT g from genes_orth group by g HAVING COUNT(gene) =

55)

group by groupe_orthologue

having COUNT(DISTINCT genes.strainID)= (SELECT COUNT(strainID) FROM strains WHERE

biovar="Equi") ;

Page 22: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

21

Box 12 : Requête qui permet d’avoir le nombre de coregenome specifique des

biovars ovis

select count(DISTINCT genes_edgar), groupe_orthologue

from genes,strains

where genes.strainID=strains.strainID AND strains.biovar="ovis" AND

groupe_orthologue NOT IN (SELECT g from genes_orth group by g HAVING

COUNT(gene) = 55)

group by groupe_orthologue

having COUNT(DISTINCT genes.strainID)= (SELECT COUNT(strainID) FROM

strains WHERE biovar="ovis") ;

Box 13: Requête qui retourne le nombre de core génome des biovars ovis

SELECT COUNT(genes_edgar), groupe_orthologue FROM genes, strains WHERE

genes.strainID=strains.strainID AND strains.biovar= "Ovis" GROUP BY

groupe_orthologue HAVING COUNT(genes_edgar)=28 ;

Box 14: Requête qui retourne le nombre de core génome des biovars equi

SELECT COUNT(genes_edgar), groupe_orthologue FROM genes, strains WHERE

genes.strainID=strains.strainID AND strains.biovar= "equi" GROUP BY

groupe_orthologue HAVING COUNT(genes_edgar)=27 ;

Box 15 : Requête qui permet de savoir le nombre de singletons par souche

select count(genes_orth.g),pangenome.strainID from genes_orth,pangenome

WHERE genes_orth.gene=pangenome.GeneID AND genes_orth.g IN (select g from

genes_orth group by g having COUNT(gene)=1 )group by pangenome.strainID ;

Box 16 : Requête qui permet de savoir le nombre de singletons par souches

des biovars ovis

select count(genes_orth.g),pangenome.strainID from genes_orth,pangenome,strains

WHERE genes_orth.gene=pangenome.GeneID AND genes_orth.g IN ( select g from

genes_orth group by g having COUNT(gene)=1 ) AND

pangenome.strainID=strains.strainID AND strains.biovar="ovis" group by

pangenome.strainID ;

Box 17 : Requête qui permet de savoir le nombre de singletons par souches

des biovars equi

select count(genes_orth.g),pangenome.strainID from genes_orth,pangenome,strains

WHERE genes_orth.gene=pangenome.GeneID AND genes_orth.g IN ( select g from

genes_orth group by g having COUNT(gene)=1 ) AND pangenome.strainID=strains.strainID

AND strains.biovar="equi" group by pangenome.strainID ;

Page 23: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

22

Box 17 : La Requête suivante retourne le nombre du core genome du biovar

ovis impliqué dans la catégorie fonctionnelle « Poorly characterized »

select count(distinct g.groupe_orth) from groupe_cog_ovis g, cogs c where

g.cogID=c.CogId and c.categorie IN ('General function prediction only','Function

unknown') ;

Box 18 : Requête qui retourne le nombre du core genome du biovar ovis

impliqué dans la catégorie fonctionnelle « INFORMATION STORAGE AND

PROCESSING »

select count(distinct g.groupe_orth) from groupe_cog_ovis g, cogs c where

g.cogID=c.CogId and c.categorie IN ('RNA processing and modification','Chromatin

structure and dynamics','Translation, ribosomal structure and

biogenesis','Transcription','Replication, recombination and repair') ;

Box 19 : Requête qui retourne le nombre du core génome du biovar ovis

impliqué dans la catégorie fonctionnelle « METABOLISM »

select count(distinct g.groupe_orth) from groupe_cog_ovis g, cogs c where

g.cogID=c.CogId and c.categorie IN ('Energy production and conversion','Amino acid

transport and metabolism','Nucleotide transport and metabolism','Carbohydrate

transport and metabolism','Coenzyme transport and metabolism','Lipid transport and

metabolism','Inorganic ion transport and metabolism','Secondary metabolites

biosynthesis, transport and catabolism') ;

Box 20 : requête qui retourne le nombre du core genome du biovar ovis

impliqué dans la catégorie fonctionnelle « CELLULAR PROCESSES AND SIGNALING »

select count(distinct g.groupe_orth) from groupe_cog_ovis g, cogs c where

g.cogID=c.CogId and c.categorie IN ('Cell cycle control, cell division, chromosome

partitioning','Cell wall/membrane/envelope biogenesis','Cell

motility','Posttranslational modification, protein turnover, chaperones','Signal

transduction mechanisms','Intracellular trafficking, secretion, and vesicular

transport','Defense mechanisms','Extracellular structures','Nuclear

structure','Cytoskeleton') ;

Box 21 : Requête qui retourne le nombre du core genome de toutes les souches

impliqué dans la catégorie fonctionnelle « CELLULAR PROCESSES AND SIGNALING»

select count(distinct groupe)

from groupe_cog g, cogs c

where g.cogs=c.CogId and c.categorie IN ('Cell cycle control, cell division,

chromosome partitioning','Cell wall/membrane/envelope biogenesis','Cell

motility','Posttranslational modification, protein turnover, chaperones','Signal

transduction mechanisms','Intracellular trafficking, secretion, and vesicular

transport','Defense mechanisms','Extracellular structures','Nuclear

structure','Cytoskeleton') ;

Page 24: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

23

Box 22 : La requête suivante retourne le nombre du core genome impliqué dans

la catégorie fonctionnelle « INFORMATION STORAGE AND PROCESSING »

select count(distinct groupe)

from groupe_cog g, cogs c

where g.cogs=c.CogId and c.categorie IN ('RNA processing and

modification','Chromatin structure and dynamics','Translation, ribosomal

structure and biogenesis','Transcription','Replication, recombination and

repair') ;

Box 23 : requête qui retourne le nombre du core genome impliqué dans la

catégorie fonctionnelle « METABOLISM».

select count(distinct groupe) from groupe_cog g, cogs c where g.cogs=c.CogId and

c.categorie IN ('Energy production and conversion','Amino acid transport and

metabolism','Nucleotide transport and metabolism','Carbohydrate transport and

metabolism','Coenzyme transport and metabolism','Lipid transport and

metabolism','Inorganic ion transport and metabolism','Secondary metabolites

biosynthesis, transport and catabolism') ;

Box 24 : La requête suivante retourne le nombre du core genome du biovar ovis

impliqué dans la catégorie fonctionnelle « Poorly characterized ».

select count(distinct groupe)

from groupe_cog g, cogs c

where g.cogs=c.CogId and c.categorie IN ('General function prediction only','Function

unknown') ;

Box 25 : La requête suivante retourne le nombre du core genome du biovar equi

impliqué dans la catégorie fonctionnelle « Poorly characterized »

select count(distinct g.groupe_orth) from groupe_cog_equi g, cogs c where

g.cogID=c.CogId and c.categorie IN ('General function prediction only','Function

unknown') ;

Box 26 : La requête suivante retourne le nombre du core genome du biovar equi

impliqué dans la catégorie fonctionnelle « INFORMATION STORAGE AND

PROCESSING »

select count(distinct g.groupe_orth) from groupe_cog_equi g, cogs c where

g.cogID=c.CogId and c.categorie IN ('RNA processing and modification','Chromatin

structure and dynamics','Translation, ribosomal structure and

biogenesis','Transcription','Replication, recombination and repair') ;

Page 25: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

24

Box 27 : La requête suivante retourne le nombre du core genome du biovar equi

impliqué dans la catégorie fonctionnelle « METABOLISM»

select count(distinct g.groupe_orth) from groupe_cog_equi g, cogs c where

g.cogID=c.CogId and c.categorie IN ('Energy production and conversion','Amino acid

transport and metabolism','Nucleotide transport and metabolism','Carbohydrate

transport and metabolism','Coenzyme transport and metabolism','Lipid transport and

metabolism','Inorganic ion transport and metabolism','Secondary metabolites

biosynthesis, transport and catabolism') ;

.

Box 28 : La requête suivante retourne le nombre du core genome du biovar equi

impliqué dans la catégorie fonctionnelle « CELLULAR PROCESSES AND SIGNALING»

select count(distinct g.groupe_orth) from groupe_cog_equi g, cogs c where

g.cogID=c.CogId and c.categorie IN ('Cell cycle control, cell division, chromosome

partitioning','Cell wall/membrane/envelope biogenesis','Cell

motility','Posttranslational modification, protein turnover, chaperones','Signal

transduction mechanisms','Intracellular trafficking, secretion, and vesicular

transport','Defense mechanisms','Extracellular structures','Nuclear

structure','Cytoskeleton') ;

Box 29 : les domaines de CLADE les plus fréquents dans les sequences des

souches du biovar equi

SELECT COUNT(id_sequence),PFAM_DOMAIN_NAME FROM pfam WHERE id_sequence IN (SELECT

sequenceID FROM genes , strains WHERE genes.strainID = strains.strainID and

strains.biovar = "equi") GROUP by PFAM_DOMAIN_NAME ORDER BY COUNT(id_sequence) DESC ;

Box 30 : les domaines de CLADE les plus fréquents dans les sequences des

souches du biovar ovis

SELECT COUNT(id_sequence),PFAM_DOMAIN_NAME FROM pfam WHERE id_sequence IN (SELECT

sequenceID FROM genes , strains WHERE genes.strainID = strains.strainID and

strains.biovar = "ovis") GROUP by PFAM_DOMAIN_NAME ORDER BY COUNT(id_sequence) DESC ;

Box 31 : Domaines uniques des equi

SELECT PFAM_DOMAIN_NAME , COUNT(id_sequence) FROM pfam WHERE id_sequence IN (select

genes.sequenceID from genes , strains WHERE genes.strainID=strains.strainID AND

strains.biovar = "equi" ) AND PFAM_DOMAIN_NAME NOT IN (SELECT PFAM_DOMAIN_NAME FROM

pfam WHERE id_sequence IN (select genes.sequenceID from genes , strains WHERE

genes.strainID=strains.strainID AND strains.biovar = "ovis")) GROUP by

PFAM_DOMAIN_NAME ORDER BY COUNT(id_sequence) DESC ;

Page 26: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

25

Box 32 : Domaines uniques des ovis

SELECT PFAM_DOMAIN_NAME , COUNT(id_sequence) FROM pfam WHERE id_sequence IN (select

genes.sequenceID from genes , strains WHERE genes.strainID=strains.strainID AND

strains.biovar = "Ovis" ) AND PFAM_DOMAIN_NAME NOT IN (SELECT PFAM_DOMAIN_NAME FROM

pfam WHERE id_sequence IN (select genes.sequenceID from genes , strains WHERE

genes.strainID=strains.strainID AND strains.biovar = 'equi')) GROUP by

PFAM_DOMAIN_NAME ORDER BY COUNT(id_sequence) DESC ;

Les codes :

Code 1 : Programme en python qui lit le fichier « pangenome2.csv » et retourne deux fichiers

« liste_groupes.csv » et « liste_genes.csv ».

Page 27: Encadré par: Juliana BERNARDES - lcqb.upmc.fr

26

Code 2 : Programme en python qui lit le fichier « cog.txt » et retourne le fichier « dico.csv».