Analyse
bioinformatique des séquences
6. - L'analyse de séquences nucléiques
6.5 - La recherche de motifs contenus dans les bases de données
Comme cela a été décrit dans le chapitre banques de données, il existe un certain nombre de bases qui répertorient des motifs nucléiques biologiquement intéressants. Il existe donc un certain nombre de logiciels permettant de rechercher si une séquence contient ou non un ou plusieurs de ces motifs.
Les banques principalement interrogées concernent les sites de fixation des facteurs de transcription : TFD et TRANSFAC.
S'exercer avec TFSearch
Vers un formalisme plus complet de la caractérisation des motifs nucléiques
La complexité des structures primaires est très inégale entre les acides nucléiques composés d'un alphabet de quatre lettres et les protéines composées d'un alphabet de vingt lettres. Cette situation engendre forcément des disparités que l'on retrouve au niveau des éléments et des méthodes de description des motifs. Par exemple, la structure primaire d'un motif protéique est souvent suffisante pour caractériser un site biologiquement actif, même si celui-ci est ambigu à certaines positions.
C'est d'ailleurs pour cette raison que l'utilisation à grande échelle, de méthodes de recherche de similarité à travers les banques, donne des résultats intéressants dans l'identification de motifs protéiques conservés. Par contre, la faible complexité des motifs nucléiques conduit à une définition, en terme de structure primaire, souvent insuffisante. De ce fait, pour les séquences nucléiques, les définitions et les méthodes de repérage de motifs que nous venons de décrire constituent un formalisme de base qu'il est souvent nécessaire d'étoffer. Ceci est d'autant plus vrai pour les sites impliqués dans des systèmes de régulation complexes comme notamment les sites nucléiques de fixation protéique.
D'autres critères ont donc une importance et doivent être pris en compte pour affiner la définition du motif. On peut, par exemple, considérer la localisation du site ou le degré d'affinité de la protéine régulatrice pour le site de fixation. On peut également rechercher des structures particulières qui peuvent s'associer au site comme des zones symétriques ou palindromiques. Ces éléments supplémentaires doivent non seulement être intégrés systématiquement dans les définitions et les recherches mais également dans le formalisme de base des motifs. Or ces formalismes de base ne permettent pas toujours d'intégrer tous les critères nécessaires à une bonne description. Par exemple, les tables de fréquences considèrent que les positions du motif sont indépendantes les une par rapport aux autres, empêchant ainsi des considérations de symétrie ou prenant difficilement en compte l'exclusion d'une base à une position précise.
L'ensemble de ces réflexions montre qu'il est souvent nécessaire de développer des outils adaptés aux particularités des signaux étudiés, en mettant au point des protocoles qui intègrent le maximum d'informations décrites dans les définitions et qui utilisent si possible plusieurs méthodes d'analyse de séquences.