Analyse bioinformatique des séquences

6. - L'analyse de séquences nucléiques

6.4 - Les différents types de motifs [suite]


Comme nous l'avons décrit ci-dessus, les motifs peuvent être définis principalement de deux manières différentes. Des algorithmes ont donc été développés pour exploiter chacun de ces deux types de définition.

Les algorithmes exploitant des motifs consensus

Lorsque les motifs recherchés sont des motifs simples, c'est-à-dire peu dégénérés, comme les sites de coupures des enzymes de restriction ou certains signaux très conservés, les algorithmes utilisés sont généralement ceux développés pour les recherches de similitude entre deux séquences, le motif étant considéré comme une des deux séquences à comparer. Les algorithmes utilisant une matrice de points comme le programme DIAGON de Staden et les programmes de recherche d'identité sont donc assez souvent employés. Si l'on veut introduire la notion d'insertion-délétion, l'algorithme dérivé de celui de Needelman et Wunsch adapté au traitement de séquences de longueur très différente est souvent utilisé. Celui-ci est identique dans le principe à un alignement global mais permet de considérer chaque position d'une séquence longue comme étant un point de départ d'alignement avec une séquence courte (cf. la recherche d'alignements optimaux). On pourra ainsi localiser dans une grande séquence la position où le motif s'aligne le mieux.

Si le motif recherché est beaucoup plus dégénéré et complexe, ou si la recherche s'effectue sur plusieurs séquences, alors il vaut mieux utiliser des programmes qui reprennent les algorithmes de base de comparaison de séquences mais qui ont été adaptés et optimisés pour rechercher des motifs complexes. Ces programmes considèrent généralement un motif complexe comme étant une collection de motifs simples qu'il faut rechercher sur une séquence. Il en existe de nombreux. Par exemple, pour accélérer la recherche de motifs simples dans les séquences nucléiques, le programme PATTERNn (Cockwell et Giles, 1989) construit une matrice d'identité du motif recherché et le programme FASTPAT (Prunella et al., 1993) utilise une compression des caractères représentant les séquences.

Exercice
S'exercer avec PATTERNn




© Université de TOURS - GENET

Document modifié, le 8 janvier, 2008
Ecran suivant