42
Jessica Monhart ([email protected]) Camille Pitteloud ([email protected]) Supervisé par Micha Hersch

Jessica Monhart ([email protected]) Camille Pitteloud ([email protected])

Embed Size (px)

DESCRIPTION

Lab mouse similarity. Jessica Monhart ([email protected]) Camille Pitteloud ([email protected]) Supervisé par Micha Hersch. Sommaire. Introduction Objectifs Intérêts Méthodes et résultats a. K- means b. PCA Comparaison des méthodes Perspectives 7)Feedback. - PowerPoint PPT Presentation

Citation preview

Jessica Monhart ([email protected])Camille Pitteloud ([email protected])Supervisé par Micha Hersch

1) Introduction2) Objectifs3) Intérêts4) Méthodes et résultats

a. K-meansb. PCA

5) Comparaison des méthodes6) Perspectives7) Feedback

-> Toutes les souris de laboratoire descendent de la même espèce ancestrale: Mus musculus

-> Le génome des souris de laboratoire a montré qu’elles descendaient de différentes sous-espèces de Mus musculus:

• Mus musculus musculus• Mus musculus domesticus• Mus musculus castaneus• Mus musculus molossinus

-> Aujourd’hui, plus de 450 souches consanguines ont été créées en laboratoire.

-> Une souche est considérée comme consanguine lorsqu’il y a eu croisement entre frère et sœur plus de 20 fois consécutives.

-> Etant donné que la plupart des souches a été croisée sur plus de 150 générations, elles sont considérées comme homozygotes.

a) Comparaison de souris de différentes souches sur une base de SNPs (au niveau du génome ou d’une région)

-> Sont-elles proches ou éloignées ?

-> Le regroupement par similarité coïncide-t-il avec leur phylogénie?

c) Comparaison de différentes méthodes d’analyse

-> Quels sont leurs avantages et leurs inconvénients ?

Connaître la distance génétique entre les différentes souches de souris permet:

-> L’obtention de meilleurs échantillonnages lors d’expériences-> L’élimination de variables confondantes génétiques

Transformation de données génétiques en données mathématiques

• Codage des 4 bases (A-T,C-G) en valeurs -1,1

• Conversion des SNPs en vecteurs -> n SNPs stockés dans un vecteur = n dimensions

• 1ère étape:Décider de K, c’est-à-dire faire l’hypothèse sur le nombre de groupes à trouver.

-> Dans notre cas, nous avons 4 souches principales donc nous aurons 4 groupes.

Résultats que l’on s’attendait à obtenir: 1ère analyse:

2ème analyse:

3ème analyse:

• Résultats pour les 3287 SNPs:1ère analyse:

2ème analyse:

3ème analyse:

• Résultats pour le chromosome 1 (263 SNPs):1ère analyse:

2ème analyse:

3ème analyse:

• Résultats pour le chromosome 10 (163 SNPs):1ère analyse:

2ème analyse:

3ème analyse:

• Résultats pour le chromosome 19 (73 SNPs):1ère analyse:

2ème analyse:

3ème analyse:

Conclusion:

-> Même en réduisant le nombre de SNPs, les analyses ne donnent pas de résultats suffisamment similaires.

-> Cette méthode ne fonctionne pas pour nos données.

Principe:

Méthode permettant de réduire le nombre de dimensions

Utile car représenter graphiquement les différentes souches (vecteurs) contenant plusieurs SNPs (dimensions) est impossible-> réduction des données en 2D (voire 3D)

Marche à suivre:

1. Sélection des SNPs et des souches à comparer

Exemple:

rsnps X.1 X1.5 X1.7[1,] -1 -1 1[2,] -1 1 -1[3,] 1 1 -1[4,] -1 1 1[5,] 1 1 -1[6,] -1 1 -1

2. Calcul de la matrice de covariance C -> évaluation de la relation entre les SNPs

Exemple:

matricecov<-cov(t(rsnps)) > matricecov [,1] [,2] [,3] [,4] [,5] [,6][1,] 1.3333333 -0.6666667 -1.3333333 0.6666667 -1.3333333 -0.6666667[2,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333[3,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667[4,] 0.6666667 0.6666667 -0.6666667 1.3333333 -0.6666667 0.6666667[5,] -1.3333333 0.6666667 1.3333333 -0.6666667 1.3333333 0.6666667[6,] -0.6666667 1.3333333 0.6666667 0.6666667 0.6666667 1.3333333

3. Diagonalisation de C -> obtention des vecteurs et des valeurs propresExemple:eigen(matricecov)$values [1] 5.154701e+00 2.845299e+00 5.529209e-16 3.268086e-16 -6.352955e-17[6] -2.158371e-16

-Le 1er vecteur propre est celui qui maximise la variance.

-Plus la valeur propre est grande, plus la variance est importante.

4. Sélection de k vecteurs propres (2 ou 3) -> réduction du nombre de dimensions

5. Projection de tous les points (souches) sur le plan formé par les k vecteurs propres

Comment tirer des conclusions à partir de nos plots?

1) 9 plots très semblables2) Mise en évidence des souches externes/groupées3) PCA sur les souches externes4) Enlever les souches externes5) PCA sur les souches restantes

• PCA sur les 20 souches:

• PCA sur les 5 souches extérieures au groupe central:

• PCA sur les 15 souches:

• PCA sur les 4 souches extérieures au 15:

• PCA sur les 11 souches:

• PCA sur les 9 souches:

• PCA sur les 7 souches:

• Résultats pour les 9 souches:

• Résultat final de la PCA:

-> les distances estimées par laPCA correspondent aux distancesentre les groupes trouvés dans la littérature

1) K-means:

Avantages:-> méthode plus rapide à assimiler-> méthode plus simple à appliquer

Inconvénient:-> méthode qui ne fonctionne pas sur nos données

2) Analyse en composantes principales:

Avantage:-> méthode efficace pour analyser nos données

Inconvénients:-> méthode longue et compliquée-> nous ne pouvions pas utiliser tous les SNPs,

seulement 1000.

-> Utilisation d’autres méthodes

-> Nous aurions pu analyser l’ADN mitochondrial et comparer les résultats avec ceux des SNPs

-> Deviner les SNPs manquants chez certaines souris au sein d’un certain groupe

-> Apprentissage de méthodes de

programmation-> Réalisation du projet lui-même-> Aperçu d’analyses mathématiques sur

des données biologiques

Nous tenons à remercier Micha Hersch pour sa disponibilité, son soutien et sa patience!

Jessica Monhart ([email protected])

Camille Pitteloud ([email protected])