User:Sbprm2016 8

Etude de cas mathématique appliqué à la biologie : "Genetics of liver enzymes levels - 2016"

But du projet

Le but de ce projet était de trouver des déterminants génétiques impliqués dans la concentration d'enzymes hépatiques. Figure 1 Pour cela, nous avons réalisé des études d'associations (Analyse de gènes candidats et GWAS) ainsi qu'une étude de pathway. Nous nous sommes focalisé sur trois enzymes en particulier:

Figure 1: Overview du projet.

• ALT = Enzyme transférant un groupe alanine.

- Cette enzyme catalyse 2 étapes du cycle de l’alanine. Un taux élevé est caractéristique d’une cytolyse hépatique.

• GGT = Enzyme transférant un groupe gamma glutamyl.

- Cette enzyme se trouve dans la membrane des cellules et est impliquée dans le métabolisme des acides aminés.

• AKP = Enzyme enlèvant un groupe phosphate.

- Cette enzyme participe à la dephosphorylation de divers éléments dont des nucléotides, protéines et alcaloïdes.

Toutes ces enzymes se trouvent en majeur partie dans le foie et sont mesurées dans le plasma sanguin dans le but d’établir un bilan hépatique. Il s'agit en effet d'un indicateur du bon fonctionnement du foie car en cas de lyse de tissus hépatiques, elles se retrouveront dans le sang. On sait qu’il existe une part génétique qui explique la variance dans ces taux enzymatiques chez l'homme, mais elle n’a pas été encore, à ce jour, complétement caractérisée. Notre travail a été d’aller dans cette direction. Ce projet s'inscrit entre autre dans la continuité des projets visant à développer la médecine stratifiée qui consiste à traiter les patients en tenant compte de leur génome.


Matériel

Pour réalisé notre projet, nous avons utilisé deux types de données: Des données phénotypiques et des données génotypiques.

Données phénotypiques:

Les données phénotypiques ont été tirées de l’étude CoLaus [1], qui est une étude de cohorte dont l’objectif de base était de récolter des données physiologiques sur des habitants de la ville de Lausanne dans le but de trouver s’il y existait un lien entre ces valeurs et des maladies cardio-vasculaires.

Dans notre cas, nous avons utilisé un échantillon de CoLaus de 5435 individus (2560 hommes et 2875 femmes). Dans cet échantillon, nous nous sommes intéressés à 6 paramètres dont les plus importants sont les concentrations enzymatiques d'intérêt (ALT, GGT, AKP).Les autres étant le sexe, l'âge, le BMI.

Données génotypiques:

Les données génotypiques sont des SNPs, soit Single Nucleotid Polymorphism. Nos données contiennent deux sortes de SNPs: des SNPs génotypés et des SNPs imputés. Les SNPs génotypés représentent 1/5 des données et l'ont été par Affymetrix 500k. Les SNPs imputés représentent les 4/5 restant et l'ont été à l’aide du HapMap project [2] (projet dont le but et de créer une base de donnée des variations génétiques existante au sein et entre différentes populations homogènes).


Traitement des données

Avant d'effectuer nos différentes études, il a été nécessaire d'observer et de traiter nos données et ce dans le but de nous affranchir de possibles biais statistiques.

Traitement des données phénotypiques:

Nos données concernant les phénotypes d’intérêts (enzymes) n'étaient pas normales. Néanmoins, nous avons décider de prendre en compte toutes les données car elles nous semblaient compatible avec la vie. Pour ce faire, nous avons du réaliser une Quantile-quantile normalisation (qqnorm). Nous nous sommes également intéressé aux paramètres âge, sexe et BMI et avons réalisé des corrélations pour voir s'il pouvait y avoir d'éventuelles covariables à prendre en compte. Finalement tous ces paramètres devaient être pris en compte à l'exception de la variable âge pour l'enzyme ALT.

Traitement des données génotypiques:

Les données génotypiques ont également été soumises à des contrôles afin de pouvoir être utilisées. Les contrôles effectués ont été :

- Le Call rate (indice de qualité du génotypage).

- MAF : Minor Allele Frequency (<1%).

- R2: Indice de qualité de l’imputation (<0.3).


Méthodologie

Figure 2: schéma de la régression linéaire.


Pour analyser et traiter nos données, nous avons utilisé les logiciel R [3] et Matlab [4].

L'outil principale pour réaliser les études d'analyse de gènes candidats ainsi que les GWAS a été la régression linéaire Figure 2.

Pour l'étude de pathway, nous avons utilisé le logiciel PASCAL [5].






Résultats

Figure 3: Résultat de l'analyse de gènes candidats.

Analyse de gènes candidats:

- But: Réaliser une étude d’association à partir de SNP préalablement identifiés comme ayant un lien avec les taux enzymatiques hépatiques d'intérêt (GGT, ALT, AKP). Nous nous sommes basés sur l’article «  Genome-Wide association study identifies loci influencing concentrations of liver enzymes in plasma ” John C Chambers et al. , Nature, 2011”» [6] pour y piocher nos SNPs d’intérêt. Sur la base des P-value les plus significatives, nous avons choisi 24 SNPs (13 pour GGT, 4 pour ALT, 7 pour AKP).

Nous avons obtenu 15 SNPs ayant des P-Value supérieures au seuil fixé Figure 3 au préalable et corrigé par Bonferroni (0.05/24). 15 des 24 SNPs sont donc expliqués par notre modèle de régression linéaire Nous pouvons retenir plusieurs éléments:

1) Ces résultats montre que notre démarche et nos données ont du sens

2) Cela montre également que CoLaus seul n’est pas une représentation parfaite de la metananalyse de John C Chambers et al.

3) Nous avons obtenu des P-Value allant jusqu'à 10e-30 ,ce qui nous a conféré un pouvoir statistique suffisant pour faire des GWAS.

Figure 4: Exemple de résultat de la GWAS pour l'enzyme ALT sous la forme d'un Manhattan plot.

Genome-Wide Association Study (GWAS):

- But: Réaliser une étude d’association à partir des 2.5 mio de SNPs à notre disposition et les valeurs des différents taux enzymatiques. Les résultats se présentent sous la forme de Manhattan plot Figure 4.Chaque point correspond à un SNP. Les points en dessus du seuil rouge (seuil corrigé par Bonferroni valant 5x10e-08) sont donc significativement corrélés avec le taux enzymatique correspondant. Nous avons effectué la même démarche pour les trois enzymes ALT, GGT et AKP. Les SNPs significativement corrélés sont situés sur les chromosomes suivants:

- Pour GGT = Chromosomes 12 et 22

- Pour AKP = Chromosomes 1, 9 et 19

- Pour ALT = Chromosome 22

Figure 5: Exemple de résultat du LocusZoom pour l'enzyme ALT.

A ce moment là, nous ne pouvions pas affirmer si un ou plusieurs gènes était concerné. En effet, il faut être conscient que chaque point correspond à un SNP mais pas forcément à un gène. Pour aller plus loin, nous avons effectué des "zoom" sur les régions chromosomique d'intérêts via le site "LocusZoom" [7] Locus zoom va zoomer sur la région chromosomique d’intérêt soit la région ou se trouvent les SNPs significativement corrélés. Sur ce graphe Figure 5 on peut les voir en rouge et constater qu’elles sont relativement proches. Le point le plus intéressant est la carte des gènes de la région qui se situe sur l’encadré du bas. Cela permet d’associer les SNPs à des gènes. Néanmoins, on peut voir que parfois plusieurs gènes sont concernés par les mêmes SNPs. Dans le cas du locus concernant ALT, le graphe suggère que les gènes SAMM50 et PNPLA3 seraient des déterminants génétiques dans la variation du taux enzymatique d’ALT. La même démarche a été réalisée pour chaque régions ou des SNPs étaient présentés comme significativement corrélés par la GWAS.

Finalement, les gènes potentiellement intéressants ont été recensé Figure 6.

Figure 6: Gènes mis en évidence par LocusZoom.

En tout, 6 locis ont été mis en évidence. On retrouve les gènes qui codent pour les enzymes GGT et ALKP (GGT1, ALPL), ainsi que des gènes qui semblent avoir un lien avec certains aspects métabolique du foie, notamment HNF1A, PNPLA3

D'autres gènes (ABO) qui ne semblait pas avoir de lien direct avec le métabolisme du foie (ABO) mais qui possédait une P-Value intéressante a été recensé. La plupart de ces gènes avaient déjà été mis en évidence dans l’étude  "John C Chambers et al. , Nature, 2011". à l'exception des 2 gènes LC2A6 et SURF4. Cependant, aucun nouveau locus ou nouvelle région chromosomique à été mis en évidence, cela suggérerait que ce ne soit qu’une question d’interprétation.


Etude de Pathway:

Figure 7: Fonctionnement de PASCAL.

- Le but était trouver si un set de gène, soit un groupe de gène connu pour avoir un rôle dans une même fonction biologique donnée, est enrichi dans les résultats des GWAS. Nous avons pour cela utilisé le logiciel PASCAL [8] Figure 7

En se basant sur les P-value de nos SNPs le logiciel a calculé un score et ce pour chaque gène d’intérêt (gène score). Le logiciel a ensuite calculé un pathway score en se basant sur les scores des gènes et ce pour chaque pathway se trouvant dans database. Finalement, le logiciel nous a retourné une liste avec le nom du Pathway concerné et la P-Value correspondante Figure 8.

Figure 8: Résultats de PASCAL.

Au final, aucune Pathway n'a été enrichi dans les GWAS effectuées (pour un seuil de 10e-06).


Conclusion

Gènes candidats

Les analyses de gènes candidats se sont avérées être des réplicas de résultats de l’article "John C Chambers et al. , Nature, 2011". Cela a permis de valider notre démarche et méthode.

GWAS

Les GWAS se sont également avérées être des réplicas des résultats de l’article "John C Chambers et al. , Nature, 2011". Nous n'avons pas réalisé de nouvelles découvertes CoLaus spécifique.

Pathway

Les études de Pathway n'ont pas donné de résultats significatifs.





Perspectives

Dans le but d'approfondir le sujet, il serait envisageable de s'intéresser de plus près à la zone "suggestive" des P-Value. En effet, les P-Value aux alentours 10e-06 n'ont pas été considérée comme significative dans nos études. Toutefois, ces SNPs ayant une P-Value relativement basses pourraient être des pistes afin d'expliquer encore mieux la part de variance génétique des taux des enzymes hépatiques.

Un second point intéressant serait de pouvoir vérifier "in vivo" nos résultats "in silico". Cela pourrait se réaliser en utilisant des organismes modèles tels que des cultures cellulaires ou encore des souris "Knock-out".


Références

Etudiants:

- Casini Laurent

- Zurkinden Steve

Superviseur:

- Corre Tanguy