| |
Génomes, séquences et informatique
Le patrimoine génétique de tout organisme est contenu
dans ses cellules au sein des molécules d'ADN dont l'ensemble
constitue le génome. L'ADN est composé de quatre éléments
constitutifs appelés nucléotides, représentés
par les lettres A, C, G et T qui sont liés les uns aux autres
dans différentes combinaisons pour former une très
longue chaîne. Sa longueur varie de quelques milliers (virus),
millions (bactéries) jusqu'à plusieurs centaines de
millions (homme) de nucléotides.
C'est dans les années 1970 que des méthodes ont été
mises au point pour permettre la détermination de séquences
(l'ordre d'enchaînement des éléments A, C, G
et T) des fragments d'ADN. Dans ces dernières années,
le développement des techniques automatisées a permis
de réduire le coût de séquençage d’un
facteur d’au moins dix. Ainsi, le séquençage
est devenue une technique de biologie moléculaire largement
utilisée, non seulement dans la recherche fondamentale, mais
également dans le diagnostic et l'identification de personnes.
Le nombre de génomes séquencés de différents
êtres vivants, des bactéries à l'homme, s'accroît
régulièrement. Le but ultime de ces projets est de
mieux connaître le fonctionnement d'un organisme. D'autre
part, grâce à la comparaison des génomes de
différents organismes, il est possible de mieux comprendre
l'évolution.
Parallèlement à cela, toute une série de logiciels
ont été développés afin de permettre
le stockage et la gestion des données, ainsi que leur analyse
et interprétation. Les méthodes d'analyse comprennent,
entre autres, la recherche de gènes (unité de base
de l'hérédité codant, en général,
pour une protéine) potentiels, la recherche de signaux impliqués
dans la régulation de l'expression de gènes et la
prédiction de la structure, de la localisation cellulaire
et de la fonction de protéines.
Lasergene, un outil puissant pour l'analyse de séquences,
débarque à l'UNIL en 2003
Après la création du Département de microbiologie
fondamentale par fusion de trois instituts (IGBM, LBM et LMI), une
analyse a révélé l'utilisation d'au moins cinq
logiciels différents pour le traitement de séquences.
Ces derniers présentaient plusieurs inconvénients
(mono-plate-forme, incomplets, trop compliqués). Afin de
faciliter les échanges de données, et de réduire
les frais d'installation et de mises à jour, il a été
proposé de choisir un logiciel standard au niveau du département.
Après comparaison des fonctionnalités de différents
logiciels, Lasergene (www.dnastar.com)
s'est distingué des produits concurrents par sa puissance
et sa simplicité d'utilisation.
Un sondage demandé par la Section de biologie a été
lancé afin d'évaluer les besoins en Lasergene sur
le site universitaire lausannois. Les résultats ont montré
un intérêt marqué: plus de 30 personnes ont
répondu positivement, dont 10 au nom de leur groupe de recherche
respectif. Le Ci et le Rectorat ont soutenu le projet et, en septembre
2003, les dix licences de Lasergene ont été installées.
En juin 2004, étant donné le nombre croissant de demandes,
le Ci a décidé l’achat de 20 licences supplémentaires,
soit 30 liences en tout. En guise de comparaison, des systèmes
comportant plus de 30 licences de Lasergene ont été
implantés dans de nombreuses universités réputées
(Harvard, Yale, Rockefeller, etc.).
L'utilisation de Lasergene est simple et n'exige pas de formation
particulière. Ce logiciel est compatible avec les systèmes
Mac (OS 9, OS X) et Windows (98, NT 4, 2000, XP).
Dans le Département de microbiologie fondamentale, Lasergene
est entré dans l'usage courant en remplaçant progressivement
les autres logiciels d'analyse de séquences.
Lasergene s'est avéré particulièrement utile
dans un projet de séquençage de génomes des
phages (des virus qui infectent les bactéries). D'une manière
générale, le décodage du génome d'un
phage nécessite le séquençage de plusieurs
centaines de clones contenant des fragments aléatoires d'ADN
génomique. Dans un tel projet, Lasergene intervient à
plusieurs niveaux. Citons, en exemple, le stockage et l'assemblage
de séquences, l'identification de gènes et la prédiction
de leur fonction.
 |
|
Assemblage
de séquences d'ADN en contigs grâce à
SeqManII.
(cliquer pour agrandir)
Les séquences (flèches) chevauchantes
sont assemblées en contigs (lignes noires épaisses)
qui sont physiquement liés par des «clones chevauchants»
(délimités par les flèches bleus). «*-R»
et «*f» sont des séquences des extrémités
droite et gauche des clones donnés.
|
Côté technique : les fonctionnalités
de Lasergene
Lasergene comprend sept modules, possédant tous une connection
Internet intégrée qui permet notamment d'importer
les données de la base Entrez de NCBI.
| Editseq |
C'est le centre opérationnel de
saisie des séquences d'acides aminés (protéines)
ou de nucléotides (ADN, ARN). Les données peuvent
être saisies manuellement ou à partir d'une autre
source (fichier texte, fichiers «bruts» issus du
séquenceur automatique, ou en spécifiant le numéro
d'accès de la banque de donnée Entrez de NCBI).
Les séquences enregistrées au format Editseq forment
les fichiers de base qui sont analysés par les six autres
modules de Lasergene. |
| MapDraw |
Représente les cartes de restriction
et les cartes génétiques sous formes textuelles
et graphiques. |
| GeneQuest |
- Aide à identifier et à visualiser, dans
une séquence d'ADN, les gènes potentiels,
les signaux de transcription, les motifs répétés
et les similitudes avec d'autre séquences.
- Calcule et représente, sous forme de tableaux,
l'usage de codons et le contenu en nucléotides.
- Donne des prédictions de la structure secondaire
de l'ARN.
|
| PrimerSelect |
Aide à choisir les oligonucléotides
pour la PCR, le séquençage et l'hybridation en
fonction de paramètres choisis (?G, Tm, longueur). |
| MegAlign |
- Utilise différents algorithmes pour effectuer l'alignement
multiple de séquences d'ADN ou de protéines.
- Construit les arbres phylogénétiques.
|
| Protean |
- Permet d'identifier les caractéristiques structurales
et propriétés physico-chimiques des protéines.
- Aide à localiser des déterminantes antigéniques
et à prévoir des profils de digestion protéolytique.
|
| SeqManII |
Permet d'assembler plusieurs dizaines de
milliers de séquences nucléotidiques en contigs
à partir des données brutes issues du séquenceur
automatique. Avant l'assemblage, SeqManII élimine les
séquences de mauvaise qualité ainsi que les séquences
de vecteurs de clonage. |
|
|