User:Sbprm2016 8

Revision as of 17:00, 9 June 2016 by Sbprm2016 8 (talk | contribs)

Etude de cas mathématique appliqué à la biologie : "Genetics of liver enzymes levels - 2016"

But du projet

Le but de ce projet était de trouver des déterminants génétiques impliqués dans la concentration d'enzymes hépatiques. Figure 1 Pour cela, nous avons réalisé des études d'associations (Analyse de gènes candidats et GWAS) ainsi qu'une étude de pathway. Nous nous sommes focalisé sur trois enzymes en particulier:

Figure 1: Overview du projet

• ALT = Enzyme transférant un groupe alanine.

- Cette enzyme catalyse 2 étapes du cycle de l’alanine. Un taux élevé est caractéristique d’une cytolyse hépatique.

• GGT = Enzyme transférant un groupe gamma glutamyl.

- Cette enzyme se trouve dans la membrane des cellules et est impliquée dans le métabolisme des acides aminés.

• AKP = Enzyme enlèvant un groupe phosphate.

- Cette enzyme participe à la dephosphorylation de divers éléments dont des nucléotides, protéines et alcaloïdes.

Toutes ces enzymes se trouvent en majeur partie dans le foie et sont mesurées dans le plasma sanguin dans le but d’établir un bilan hépatique. Il s'agit en effet d'un indicateur du bon fonctionnement du foie car en cas de lyse de tissus hépatiques, elles se retrouveront dans le sang. On sait qu’il existe une part génétique qui explique la variance dans ces taux enzymatiques chez l'homme, mais elle n’a pas été encore, à ce jour, complétement caractérisée. Notre travail a été d’aller dans cette direction. Ce projet s'inscrit entre autre dans la continuité des projets visant à développer la médecine stratifiée qui consiste à traiter les patients en tenant compte de leur génome.


Matériel

Pour réalisé notre projet, nous avons utilisé deux types de données: Des données phénotypiques et des données génotypiques.

Données phénotypiques:

Les données phénotypiques ont été tirées de l’étude CoLaus [1], qui est une étude de cohorte dont l’objectif de base était de récolter des données physiologiques sur des habitants de la ville de Lausanne dans le but de trouver s’il y existait un lien entre ces valeurs et des maladies cardio-vasculaires.

Dans notre cas, nous avons utilisé un échantillon de CoLaus de 5435 individus (2560 hommes et 2875 femmes). Dans cet échantillon, nous nous sommes intéressés à 6 paramètres dont les plus importants sont les concentrations enzymatiques d'intérêt (ALT, GGT, AKP).Les autres étant le sexe, l'âge, le BMI.

Données génotypiques:

Les données génotypiques sont des SNPs, soit Single Nucleotid Polymorphism. Nos données contiennent deux sortes de SNPs: des SNPs génotypés et des SNPs imputés. Les SNPs génotypés représentent 1/5 des données et l'ont été par Affymetrix 500k. Les SNPs imputés représentent les 4/5 restant et l'ont été à l’aide du HapMap project [2] (projet dont le but et de créer une base de donnée des variations génétiques existante au sein et entre différentes populations homogènes).


Traitement des données

Avant d'effectuer nos différentes études, il a été nécessaire d'observer et de traiter nos données et ce dans le but de nous affranchir de possibles biais statistiques.

Traitement des données phénotypiques:

Nos données concernant les phénotypes d’intérêts (enzymes) n'étaient pas normales. Néanmoins, nous avons décider de prendre en compte toutes les données car elles nous semblaient compatible avec la vie. Pour ce faire, nous avons du réaliser une Quantile-quantile normalisation (qqnorm). Nous nous sommes également intéressé aux paramètres âge, sexe et BMI et avons réalisé des corrélations pour voir s'il pouvait y avoir d'éventuelles covariables à prendre en compte. Finalement tous ces paramètres devaient être pris en compte à l'exception de la variable âge pour l'enzyme ALT.

Traitement des données génotypiques:

Les données génotypiques ont également été soumises à des contrôles afin de pouvoir être utilisées. Les contrôles effectués ont été :

- Le Call rate (indice de qualité du génotypage).

- MAF : Minor Allele Frequency (<1%).

- R2: Indice de qualité de l’imputation (<0.3).


Méthodologie

Pour analyser et traiter nos données, nous avons utilisé les logiciel R [3] et Matlab [4].

L'outil principale pour réaliser les études d'analyse de gènes candidats ainsi que les GWAS a été la régression linéaire.

Pour l'étude de pathway, nous avons utilisé le logiciel PASCAL [5].


Résultats

Figure 2: Résultat de l'analyse de gènes candidats

Analyse de gènes candidats:

- But: Réaliser une étude d’association à partir de SNP préalablement identifiés comme ayant un lien avec les taux enzymatiques hépatiques d'intérêt (GGT, ALT, AKP). Nous nous sommes basés sur l’article «  Genome-Wide association study identifies loci influencing concentrations of liver enzymes in plasma ” John C Chambers et al. , Nature, 2011”» [6] pour y piocher nos SNPs d’intérêt. Sur la base des P-value les plus significatives, nous avons choisi 24 SNPs (13 pour GGT, 4 pour ALT, 7 pour AKP).

On a obtenus Figure 2 15 SNPs ayant des P-Value supérieures au seuil fixé au préalable et corrigé par Bonferroni (0.05/24). 15 des 24 SNPs sont donc expliqués par notre modèle de régression linéaire Nous pouvons retenir plusieurs éléments: 1) Ces résultats montre que notre démarche et nos données ont du sens 2) Cela montre également que CoLaus seul n’est pas une représentation parfaite de la metananalyse de John C Chambers et al. 3) Nous avons obtenu des P-Value allant jusqu'à 10e-30 ,ce qui nous a conféré un pouvoir statistique suffisant pour faire des GWAS.


Genome-Wide Association Study (GWAS):

Figure 3: Exemple de résultat de la GWAS pour l'enzyme ALT sous la forme d'un Manhattan plot

- But: Réaliser une étude d’association à partir des 2.5 mio de SNP à notre disposition et les valeurs des différents taux enzymatiques. Les résultats se présentent sous la forme de Manhattan plot avec l'exemple pour l'enzyme ALT Figure 3.Chaque point correspond à un SNP. Les points en dessus du seuil rouge (seuil corrigé par Bonferroni valant 5x10e-08) sont donc significativement corrélés avec le taux enzymatique correspondant. Nous avons effectué la même démarche pour les trois enzymes ALT, GGT et AKP. Les SNPs significativement corrélés sont situés sur les chromosomes suivants:

- Pour GGT = Chromosomes 12 et 22

- Pour AKP = Chromosomes 1, 9 et 19

- Pour ALT = Chromosome 22

A ce moment, on ne pouvait pas affirmer si un ou plusieurs gènes était concerné. En effet, il faut être conscient que chaque point correspond à un SNP mais pas forcément à un gène. Pour aller plus loin, nous avons effectué des "zoom" sur les régions chromosomique d'intérêt via le site "LocusZoom" [7]