| Home | Phylogenetic Tree | Small genomes | Methodes | Tools | Other sites | References | Contact Us |

Methodes (english)

Introduction

Une ballade sur l'ADN ou « DNA walk » mesure comment la fréquence de chaque nucléotide varie localement. Cette analyse demande à mesurer la proportion locale des Gs parmi les Gs ou les Cs et celle de Ts parmi les Ts ou les As. Lobry a été le premier à proposer cette analyse (1996, 1999). Deux analyses complémentaires dérivent du DNA walk: l'analyse cumulative du biais d'usage parmi les nucléotides TA et celle des GC ou l'analyse cumulative du TA- et du GC-skew.

But: A la lecture de la description de l'algorithme, un lecteur non entraîné en génomique est capable de dresser nos graphiques en utilisant les fichiers génométriques de bases qui sont offerts pour chaque organisme sur ce site web sous la forme d'un fichier compressé (.zip).

 

1) ballade sur l'ADN ou « DNA walk »

1.1) Dessiner un DNA walk en parcourant un fichier de séquence nucléotide par nucléotide.

Un algorithme simple est utilisé pour dessiner un DNA walk simplement en assignant une direction à chaque nucléotide. Nous proposons de définir un assignement légèrement différent de celui proposé par Lobry : aux nucléotides T, C, A, et G correspondent les directions E(st), S(ud), O(uest), et N(ord), respectivement (Lobry, 1999). A la lecture de la séquence nucléotide par nucléotide et à l'application de la règle précitée, un chemin, le DNA walk, apparaît clairement sur le graphique: Figure 1.

Figure 1: DNA walk de la séquence suivante:

 GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGACCACAGGACCCACCAGGGACCCAGGACCC

En partant du coin en bas à gauche (ligne bleue en gras), la courbe s'achève (en rose)

au même endroit, en bas à gauche.

1.2) Dessiner un DNA walk en morcelant la séquence génomique en petites fenêtres.

Une façon simple de dessiner rapidement ce genre de graphique a été proposée par Lobry (1996) en coupant la séquence d'un génome en fenêtres de longueurs égales.

 

Figure 2: DNA walk de la même séquce que celle présentée dans la Figure 1: GTCTGGTGTCTGGAGTTCCTGGGTCTTGAGACCACAGGACCCACCAGGGACCCAGGACCC

La séquence a été morcelée en fenêtre de 5 nucléotides. Seul le résultat du cinquième nucléotide pour chaque fenêtre a été utilisé pour dresser le graphique. Le travail peut aussi se faire en assignant par exemple au milieu de la fenêtre la valeur moyenne calculée dans celle-ci…

Commentaire: cette méthode n'est pas aussi précise que la première, mais nous pouvons l'utiliser facilement avec un ordinateur personnel équipé d'un tableur. A l'échelle du génome, la résolution finale de la courbe n'est pas affectée de façon significative.

 

1.2.1) La séquence du génome est coupée en un nombre n de fenêtres W (pour windows), de taille égale (la dernière fenêtre étant plus petite ou égale aux autres).

W1
W2
W3
...
...
Wn-1
Wn

1.2.2) Dans chaque fenêtre, on compte chacun des 4 nucléotides: cA, cC, cG, et cT respectivement.

W1

cA1

cC1

cG1

cT1

W2

cA2

cC2

cG2

cT2

W3

cA3

cC3

cG3

cT3

...

...

...

...

...

...

...

...

...

...

Wn-1

cAn-1

cCn-1

cGn-1

cTn-1

Wn

cAn

cCn

cGn

cTn

Exemple: génome du Mycoplasma genitalium (télécharger le fichier texte compressé), coupé en fenêtres de 1000 nucléotides.
(Mycoplasma genitalium G37 complete genome, L43967.1, 580074 bp, window: 1000 bp).
 

Center position

Position of the window center (nt)

cA

cC

cG

cT

500

453

93

86

368

1500

400

120

133

347

2500

374

122

164

340

3500

345

145

200

310

...

...

...

...

...

...

...

...

...

...

578500

313

138

141

408

579500

318

149

145

388

580037

33

8

4

29

1.2.3) Deux opérations sont appliqués à chaque fenêtre, déterminant ainsi xi et yi.

W1

cA1

cC1

cG1

cT1

x1=cT1-cA1

y1=cG1-cC1

W2

cA2

cC2

cG2

cT2

x2=cT2-cA2

y2=cG2-cC2

...

...

...

...

...

...

...

Wn

cAn

cCn

cGn

cTn

xn=cTn-cAn

yn=cGn-cCn

1.2.4) Une courbe cumulative est calculée en déterminant Xi and Yi.

W1 ...

x1=cT1-cA1

y1=cG1-cC1

X1=sum(x1 to x1)

Y1=sum(y1 to y1)

W2 ...

x2=cT2-cA2

y2=cG2-cC2

X2=sum(x1 to x2)

Y2=sum(y1 to y2)

...

...

...

...

...

Wn ...

xn=cTn-cAn

yn=cGn-cCn

Xn=sum(x1 to xn)

Yn=sum(y1 to yn)

1.2.5) Une courbe cumulative (ou DNA walk) est dessinée en respectant l'ordre des données, de X1 à Xn, en assignant à chaque Xi la valeur de Yi.

1.2.6) En accord avec la méthode précédente, un DNA walk est donc établi.

Sur nos graphiques, TmAc vs GmCc signifie que x correspond au cumul des nombres de Ts moins ceux des As, contre en y le cumul du nombre des Gs moins ceux des Cs.

Lobry avait choisi d'utiliser l'assignement suivant: T, G, A, et C correspondaient respectivement aux directions E, S, W, et N. Les résultats graphiques de Lobry sont similaires aux nôtres (en miroir par rapport à l'axe des X). Pour s'en convaincre il suffit de comparer le DNA walk du chromosome de Borrelia burgdorferi dans le système de représentation de Lobry et dans le nôtre.

Système de coordonnées de Lobry

Notre système

Figure 3: DNA walk de Borrelia burdorferi

2) L'analyse cumulative du biais d'usage des TA et celle des GC ou l'analyse cumulative du TA- et du GC-skew.

2.1) Dessiner une analyse cumulative du TA- ou du GC-skew en lisant un fichier de séquence nucléotide par nucléotide.

L'analyse cumulative du TA-skew: Assigner à chaque nucléotide la direction suivante: aux nucléotides A, T, C, et G correspondent les directions S, N, ad (aucune direction), et ad, respectivement. Pour dessiner le graphique, le pointeur se déplace vers l'Est à la lecture de chaque nucléotide. mais une étape est ajoutée à chaque A ou T lu : un pas supplémentaire vers le Sud ou vers le Nord respectivement.

Figure 4: Analyse cumulative du TA-skew de la séquence de la Figure 1

L'analyse cumulative du GC-skew: aux nucléotides A, T, C, et G correspondent les directions ad, ad, S, et N respectivement. Pour dessiner le graphique, le pointeur se déplace vers l'Est à la lecture de chaque nucléotide. mais une étape est ajoutée à chaque C ou G lu : un pas supplémentaire vers le Sud ou vers le Nord respectivement.

Figure 5: Analyse cumulative du GC-skew de la séquence de la Figure 1

2.2.1) Dessiner une analyse cumulative de TA-skew en morcelant un fichier de séquence en petites fenêtres.

En accord avec la description du § 1.2, assigner à chaque centre de fenêtre cwi la valeur Xi . Une courbe cumulative est dressée en respectant l'ordre des données déterminée par le positionnement sur le chromosome, de cw1 à cwn et en assignant à chaque si la valeur Xi. . 

cw1

X1

cw2

X2

...

...

...

...

cwn

Xn

2.2.2) Dessiner une analyse cumulative de GC-skew en morcelant un fichier de séquence en petites fenêtres.
 
L'analyse cumulative de GC-skew est similaire à la précédente. Remplacer X par Y.

cw1

Y1

cw2

Y2

...

...

...

...

cwn

Yn

Sur nos graphiques, générés par la méthode nucléotide par nucléotide, l'analyse cumulative du TA skew est indiquée comme suit: Center vs. TmAc. L'analyse cumulative du GC-skew est marquée de façon similaire: Center vs. GmCc.
 

Figure 6: Analyse cumulative du TA-skew de la séquence
de Borrelia burgdorferi

Figure 7: Analyse cumulative du GC-skew de la séquence
de Borrelia burgdorferi



Lobry, J.R. (1996) A simple vectorial representation of DNA sequences for the detection of replication origins in bacteria. Biochimie, 78, 323-326.
Lobry, J.R. (1999) Genomic landscapes. Microbiology Today, 26, 164-165. (Télécharger le fichier - 223 Ko)

 


| Home | Phylogenetic Tree | Small genomes | Methodes | Tools | Other sites | References | Contact Us |

Copyright 2001, IGBM et Université de Lausanne