Difference between revisions of "Pathway enrichment in DNAse1 footprinting data"

Line 1: Line 1:
'''Background''': Unraveling the transcriptional network in human cells is of great interest in genetics. A new publicly available data source with genome wide coverage released by the ENCODE Project has the potential to really advance our understanding of transcription regulations
+
'''Background''': Il est essentiel pour le domaine de la génétique d’éclaircir le réseau de transcription qui est impliqué dans les cellules humaines. Actuellement, des données couvrant une grande partie du génome sont accessibles au public et permettent alors une réelle avancée dans la compréhension de la régulation de la transcription.
  
'''Goal''': Using these data sources, we will try to rediscover well known functional knowledge about transcription factors by just using this data set. If this is successful, we will expand our analysis to make novel predictions about functional involvment of transcription factors.
+
'''Goal''': Le but du projet était d’identifier des motifs spécifiques qui se retrouvent dans certaines voies biologiques (pathways) en cartographiant des réseaux des facteurs de transcriptions (TF). Nous souhaitions donc savoir quels TF sont impliqués dans quelles voies. Ces résultats pourraient ensuite servir d'outils pour, par exemple, identifier des dysfonctionnements dans une voie particulière ou augmenter les connaissances concernant les interactions TF-pathways.  
  
'''Mathematical tools''': Statistics. The students will learn about enrichment analysis and make contact with bias and variance issues in a practical setting. The students will learn about and perform large scale data analysis. Care is taken, that handling of the data is as simple as possible.
+
'''Mathematical tools''': Pour la création et la gestion de nos bases de données, nous avons utilisé le programme SQLite, qui permet la mise en lien très efficace de nombreuses tables entre elles.
 +
Pour la mise en place de requêtes et tests statistiques, nous avons opté pour le programme libre R.
 +
Le test statistique est basé sur une distribution hypergéométrique (loi des tirages sans remise). Nous avons par ailleurs essayé de corriger pour les tests multiples (Bonferroni).
 +
 +
Fig.1 : Calcul de la p-value avec distribution hypergéométrique.
 +
 +
Fig.2 :Permet d’ajuster la p-value lors de test multple.
 +
Le seuil de rejet α <5% pour compenser le nombre de tests (k).  
  
'''Biological or Medical aspects'''
+
'''Results'''
 +
 
 +
'''Conclusion'''
  
 
'''Supervisors''': [[User:Aurelien | Aurelien Mace]] & [[User:David|David Lamparter]]  
 
'''Supervisors''': [[User:Aurelien | Aurelien Mace]] & [[User:David|David Lamparter]]  
  
'''Students''':
+
'''Students''':Sabine Mentha, Emmanuelle Besson et Dehlia Chevalley
  
'''Presentation''':[[Media:PresentationForStudents21_2_13.pdf‎]]
+
'''Presentation''':[[http://prezi.com/r5vkvgut9rje/pathway-enrichment-dnase1-footprinting-data/?auth_key=9b813e906225faf8b46b75e1e22aa0aee1dc3109&kw=view-r5vkvgut9rje&rc=ref-41624103]]
  
 
Back to [[UNIL BSc course: "Solving Biological Problems that require Math 2012"]]
 
Back to [[UNIL BSc course: "Solving Biological Problems that require Math 2012"]]

Revision as of 13:42, 5 June 2013

Background: Il est essentiel pour le domaine de la génétique d’éclaircir le réseau de transcription qui est impliqué dans les cellules humaines. Actuellement, des données couvrant une grande partie du génome sont accessibles au public et permettent alors une réelle avancée dans la compréhension de la régulation de la transcription.

Goal: Le but du projet était d’identifier des motifs spécifiques qui se retrouvent dans certaines voies biologiques (pathways) en cartographiant des réseaux des facteurs de transcriptions (TF). Nous souhaitions donc savoir quels TF sont impliqués dans quelles voies. Ces résultats pourraient ensuite servir d'outils pour, par exemple, identifier des dysfonctionnements dans une voie particulière ou augmenter les connaissances concernant les interactions TF-pathways.

Mathematical tools: Pour la création et la gestion de nos bases de données, nous avons utilisé le programme SQLite, qui permet la mise en lien très efficace de nombreuses tables entre elles. Pour la mise en place de requêtes et tests statistiques, nous avons opté pour le programme libre R. Le test statistique est basé sur une distribution hypergéométrique (loi des tirages sans remise). Nous avons par ailleurs essayé de corriger pour les tests multiples (Bonferroni).

Fig.1 : Calcul de la p-value avec distribution hypergéométrique.

Fig.2 :Permet d’ajuster la p-value lors de test multple.

Le seuil de rejet α <5% pour compenser le nombre de tests (k). 

Results

Conclusion

Supervisors: Aurelien Mace & David Lamparter

Students:Sabine Mentha, Emmanuelle Besson et Dehlia Chevalley

Presentation:[[1]]

Back to UNIL BSc course: "Solving Biological Problems that require Math 2012"