Analyse
bioinformatique des séquences
6. - L'analyse de séquences nucléiques
6.4 - Les différents types de motifs
Pour les autres motifs nucléiques, la définition commence en général par l'analyse d'un alignement multiple de toutes les séquences connues comme étant actives pour la fonction étudiée. Cela permet de connaître pour chaque position la variabilité en bases. L'alignement de ces séquences peut servir à produire une séquence consensus, une table de fréquences ou une matrice de pondération des éléments qui composent le motif. La séquence consensus rend compte de la ou des bases les plus fréquemment rencontrées pour chaque position. Dans le cas de séquences très spécifiques, cette simple séquence suffit pour décrire de manière satisfaisante une région
active.
Malheureusement, dans la plupart des cas comme pour les facteurs de transcription,
elle ne suffit pas pour identifier les sites biologiquement actifs car elle
n'est pas forcément celle qui est le plus souvent rencontrée comme signal. Au pire elle peut elle-même ne pas exister en tant que signal ! Ceci est du essentiellement au fait que l'on considère l'indépendance entre les positions durant l'établissement du consensus et que ce dernier ne représente qu'un résumé de toutes les séquences effectivement actives. Pour éviter en partie ce problème, un nombre maximum de positions pour lesquelles on tolère la non identité par rapport à la séquence consensus peut être incorporé dans la définition du motif. On parle alors d'éloignement ou de distance à la séquence
consensus (Mengeritsky et Smith, 1987).
Pour exprimer l'ambiguïté et la complexité d'un motif, on peut également déduire de l'alignement des séquences une table de fréquences en comptabilisant les occurrences de chaque base à chaque position du motif. En d'autres termes, on définit à partir d'un échantillon donné, la probabilité d'apparition des bases pour chaque position du motif. Il est possible ensuite, pour augmenter la fiabilité des probabilités, de considérer des critères supplémentaires, intrinsèques aux séquences, comme la thermodynamique liée au motif étudié ou la fréquence attendue des bases selon la région où se trouve le motif. On peut ainsi, considérer que l'apparition d'une cytosine est plus significative que l'apparition d'une guanine dans une zone riche en guanine. La transformation de la table des fréquences en tenant compte éventuellement de critères supplémentaires donne naissance à une matrice de pondération (weight matrix). Celle-ci est généralement construite en prenant le logarithme de la fréquence de chaque base à chaque position pour optimiser les différences contenues dans la table des fréquences. Pour prendre en compte des critères supplémentaires comme le pourcentage des bases de la région étudiée, chacune des valeurs logarithmiques pourra être divisée par la fréquence génomique de la base observée. On trouvera dans la littérature plusieurs exemples et méthodes de génération de matrices de fréquence ou de pondération
(Bucher, 1990 ; Stormo, 1990).