Analyse bioinformatique des séquences

3. - Les banques et bases de séquences biologiques

3.4 - Les banques spécialisées - Les bases de motifs

 

On sait que certains segments d'ADN ou de protéines sont déterminants dans l'analyse des séquences car ils correspondent à des sites précis d'activité biologique comme par exemple les éléments de régulation des gènes ou les signatures peptidiques. C'est pourquoi des bases spécialisées se sont naturellement constituées autour de ces séquences.

Les bases de motifs nucléiques
La plupart de ces bases recensent dans des catalogues les séquences des différents motifs pour lesquels une activité biologique a été identifiée.

Certains motifs sont simples et non ambigus comme ceux que l'on trouve dans la base Rebase (Roberts et Macelis, 1994) qui donne une liste actualisée des sites de coupure des enzymes de restriction. D'autres correspondent à des activités biologiques plus complexes et engendrent donc des séquences moins précises comme par exemple les sites d'épissage ou les signaux de transcription.

Pour ces derniers types de motifs, des compilations ont été établies pour donner des listes annotées de motifs qui peuvent être communs à plusieurs séquences. Par exemple, la revue Gnomic (Trifonov et Brendel, 1986) a permis ainsi de recenser un grand nombre de signatures nucléiques.

Maintenant, ce genre de compilation réunit essentiellement les informations liées à la transcription. Ainsi aujourd'hui, il existe principalement deux bases de motifs nucléiques qui sont régulièrement actualisées et qui correspondent à un travail de synthèse bibliographique : il s'agit des bases de facteurs de transcription TFD (Ghosh, 1993), et TRANSFAC (Knüppel et al., 1994).

Malgré tout, certaines redondances existent dans ces bases et certains facteurs peuvent être donnés sous des formes différentes. De plus, une autre approche s'est constituée pour représenter des sites nucléiques spécifiques impliqués dans des processus biologiques. Celle-ci permet de définir les sites, non plus sous forme de chaînes de caractères avec d'éventuelles ambiguïtés à certaines positions, mais sous forme de matrices reflétant une probabilité d'apparition de chaque base à chaque position du site (c.f. la définition des motifs dans les programmes de recherche de motifs). Ces développements ont donc conduit à la constitution de bases de matrices représentant des sites spécifiques.

Pour illustrer ces deux types de représentation de l'information, nous présentons ici une des bases de facteurs de transcription les plus utilisées TFD (Ghosh, 1993), ainsi que la base IMD (Chen et al., 1995) qui regroupe un grand nombre de matrices caractéristiques d'éléments de transcription.


En savoir plus sur la base TFD
En savoir plus sur la base IMD


Ecran suivant

© Université de TOURS - NET

Document modifié, le 13 septembre, 2007