|
|
Methodes (english)
IntroductionUne ballade sur l'ADN ou « DNA walk » mesure comment la fréquence de chaque nucléotide varie localement. Cette analyse demande à mesurer la proportion locale des Gs parmi les Gs ou les Cs et celle de Ts parmi les Ts ou les As. Lobry a été le premier à proposer cette analyse (1996, 1999). Deux analyses complémentaires dérivent du DNA walk: l'analyse cumulative du biais d'usage parmi les nucléotides TA et celle des GC ou l'analyse cumulative du TA- et du GC-skew.
But: A la lecture de la description de l'algorithme, un lecteur non entraîné en génomique est capable de dresser nos graphiques en utilisant les fichiers génométriques de bases qui sont offerts pour chaque organisme sur ce site web sous la forme d'un fichier compressé (.zip).
1) ballade sur l'ADN ou « DNA walk »
1.1) Dessiner un DNA walk en parcourant un fichier de séquence nucléotide par nucléotide.
Un algorithme simple est utilisé pour dessiner un DNA walk simplement en assignant une direction à chaque nucléotide. Nous proposons de définir un assignement légèrement différent de celui proposé par Lobry : aux nucléotides T, C, A, et G correspondent les directions E(st), S(ud), O(uest), et N(ord), respectivement (Lobry, 1999). A la lecture de la séquence nucléotide par nucléotide et à l'application de la règle précitée, un chemin, le DNA walk, apparaît clairement sur le graphique: Figure 1.
Figure 1: DNA walk de la séquence suivante:
GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGACCACAGGACCCACCAGGGACCCAGGACCC
En partant du coin en bas à gauche (ligne bleue en gras), la courbe s'achève (en rose)
au même endroit, en bas à gauche.
1.2) Dessiner un DNA walk en morcelant la séquence génomique en petites fenêtres.
Une façon simple de dessiner rapidement ce genre de graphique a été proposée par Lobry (1996) en coupant la séquence d'un génome en fenêtres de longueurs égales.
Figure 2: DNA walk de la même séquce que celle présentée dans la Figure 1: GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGACCACAGGACCCACCAGGGACCCAGGACCC
La séquence a été morcelée en fenêtre de 5 nucléotides. Seul le résultat du cinquième nucléotide pour chaque fenêtre a été utilisé pour dresser le graphique. Le travail peut aussi se faire en assignant par exemple au milieu de la fenêtre la valeur moyenne calculée dans celle-ci
Commentaire: cette méthode n'est pas aussi précise que la première, mais nous pouvons l'utiliser facilement avec un ordinateur personnel équipé d'un tableur. A l'échelle du génome, la résolution finale de la courbe n'est pas affectée de façon significative.
1.2.1) La séquence du génome est coupée en un nombre n de fenêtres W (pour windows), de taille égale (la dernière fenêtre étant plus petite ou égale aux autres).
- W1
- W2
- W3
- ...
- ...
- Wn-1
- Wn
1.2.2) Dans chaque fenêtre, on compte chacun des 4 nucléotides: cA, cC, cG, et cT respectivement.
W1
cA1
cC1
cG1
cT1
W2
cA2
cC2
cG2
cT2
W3
cA3
cC3
cG3
cT3
...
...
...
...
...
...
...
...
...
...
Wn-1
cAn-1
cCn-1
cGn-1
cTn-1
Wn
cAn
cCn
cGn
cTn
- Exemple: génome du Mycoplasma genitalium (télécharger le fichier texte compressé), coupé en fenêtres de 1000 nucléotides.
(Mycoplasma genitalium G37 complete genome, L43967.1, 580074 bp, window: 1000 bp).
Center position
Position of the window center (nt)
cA
cC
cG
cT
500
453
93
86
368
1500
400
120
133
347
2500
374
122
164
340
3500
345
145
200
310
...
...
...
...
...
...
...
...
...
...
578500
313
138
141
408
579500
318
149
145
388
580037
33
8
4
29
1.2.3) Deux opérations sont appliqués à chaque fenêtre, déterminant ainsi xi et yi.
W1
cA1
cC1
cG1
cT1
x1=cT1-cA1
y1=cG1-cC1
W2
cA2
cC2
cG2
cT2
x2=cT2-cA2
y2=cG2-cC2
...
...
...
...
...
...
...
Wn
cAn
cCn
cGn
cTn
xn=cTn-cAn
yn=cGn-cCn
1.2.4) Une courbe cumulative est calculée en déterminant Xi and Yi.
W1 ...
x1=cT1-cA1
y1=cG1-cC1
X1=sum(x1 to x1)
Y1=sum(y1 to y1)
W2 ...
x2=cT2-cA2
y2=cG2-cC2
X2=sum(x1 to x2)
Y2=sum(y1 to y2)
...
...
...
...
...
Wn ...
xn=cTn-cAn
yn=cGn-cCn
Xn=sum(x1 to xn)
Yn=sum(y1 to yn)
1.2.5) Une courbe cumulative (ou DNA walk) est dessinée en respectant l'ordre des données, de X1 à Xn, en assignant à chaque Xi la valeur de Yi.
1.2.6) En accord avec la méthode précédente, un DNA walk est donc établi.
- Sur nos graphiques, TmAc vs GmCc signifie que x correspond au cumul des nombres de Ts moins ceux des As, contre en y le cumul du nombre des Gs moins ceux des Cs.
Lobry avait choisi d'utiliser l'assignement suivant: T, G, A, et C correspondaient respectivement aux directions E, S, W, et N. Les résultats graphiques de Lobry sont similaires aux nôtres (en miroir par rapport à l'axe des X). Pour s'en convaincre il suffit de comparer le DNA walk du chromosome de Borrelia burgdorferi dans le système de représentation de Lobry et dans le nôtre.
Système de coordonnées de Lobry
Notre système
Figure 3: DNA walk de Borrelia burdorferi
2) L'analyse cumulative du biais d'usage des TA et celle des GC ou l'analyse cumulative du TA- et du GC-skew.
2.1) Dessiner une analyse cumulative du TA- ou du GC-skew en lisant un fichier de séquence nucléotide par nucléotide.
L'analyse cumulative du TA-skew: Assigner à chaque nucléotide la direction suivante: aux nucléotides A, T, C, et G correspondent les directions S, N, ad (aucune direction), et ad, respectivement. Pour dessiner le graphique, le pointeur se déplace vers l'Est à la lecture de chaque nucléotide. mais une étape est ajoutée à chaque A ou T lu : un pas supplémentaire vers le Sud ou vers le Nord respectivement.
Figure 4: Analyse cumulative du TA-skew de la séquence de la Figure 1
L'analyse cumulative du GC-skew: aux nucléotides A, T, C, et G correspondent les directions ad, ad, S, et N respectivement. Pour dessiner le graphique, le pointeur se déplace vers l'Est à la lecture de chaque nucléotide. mais une étape est ajoutée à chaque C ou G lu : un pas supplémentaire vers le Sud ou vers le Nord respectivement.
Figure 5: Analyse cumulative du GC-skew de la séquence de la Figure 1
2.2.1) Dessiner une analyse cumulative de TA-skew en morcelant un fichier de séquence en petites fenêtres.
En accord avec la description du § 1.2, assigner à chaque centre de fenêtre cwi la valeur Xi . Une courbe cumulative est dressée en respectant l'ordre des données déterminée par le positionnement sur le chromosome, de cw1 à cwn et en assignant à chaque si la valeur Xi. .
cw1
X1
cw2
X2
...
...
...
...
cwn
Xn
- 2.2.2) Dessiner une analyse cumulative de GC-skew en morcelant un fichier de séquence en petites fenêtres.
- L'analyse cumulative de GC-skew est similaire à la précédente. Remplacer X par Y.
cw1
Y1
cw2
Y2
...
...
...
...
cwn
Yn
- Sur nos graphiques, générés par la méthode nucléotide par nucléotide, l'analyse cumulative du TA skew est indiquée comme suit: Center vs. TmAc. L'analyse cumulative du GC-skew est marquée de façon similaire: Center vs. GmCc.
Figure 6: Analyse cumulative du TA-skew de la séquence
de Borrelia burgdorferiFigure 7: Analyse cumulative du GC-skew de la séquence
de Borrelia burgdorferi
Lobry, J.R. (1996) A simple vectorial representation of DNA sequences for the detection of replication origins in bacteria. Biochimie, 78, 323-326.
Lobry, J.R. (1999) Genomic landscapes. Microbiology Today, 26, 164-165. (Télécharger le fichier- 223 Ko)
| Home | Phylogenetic Tree | Small genomes | Methodes | Tools | Other sites | References | Contact Us |
Copyright 2001, IGBM et Université de Lausanne