Analyse
bioinformatique des séquences
3. - Les banques et bases de séquences biologiques
3.4 - Les banques spécialisées - Les bases de motifs [suite]
La base de motifs protéiques BLOCKS
La base BLOCKS est également
basée sur un système qui détecte
et assemble les régions conservées de protéines apparentées.
La détection consiste en des alignements multiples à partir desquels
des blocs de séquences sont engendrés. Un bloc est la superposition
de segments protéiques très similaires sans insertion-délétion.
L'ensemble de tous ces blocs forme la base. C'est ainsi que Henikoff et Henikoff
(1991) ont défini 1764 blocs à partir des 437 groupes de protéines
recensés durant l'établissement de PROSITE. Les motifs représentés
par la base BLOCKS sont généralement plus courts que ceux donnés
par la base PROSITE mais les différences fondamentales entre ces bases
résident dans la représentation des données. Les motifs
de PROSITE sont définis sous forme de chaînes de caractères
prenant en compte des insertions et des ambiguïtés sur les acides
aminés conservés alors que les motifs de la base BLOCKS sont
représentés
par des suites d'acides aminés donnés sous forme d'alignements
multiples.
L'utilisation de ces bases de motifs est devenue un outil essentiel dans l'analyse des séquences pour tenter de déterminer la fonction de protéines inconnues ou savoir à quelle famille appartient une séquence non encore caractérisée.
En général, les bases comme TFD ou IMD sont employées sur les séquences promotrices des gènes tandis que celles comme PROSITE ou BLOCKS sont utilisées sur des protéines inconnues ou bien des séquences protéiques traduites à partir de cDNA ou de séquences génomiques. Pour détecter une fonctionnalité sur une séquence, il suffit d'exécuter un programme qui s'appliquera à repérer la présence de certains motifs recensés dans ces bases et ainsi à prédire l'appartenance de la séquence testée à un groupe de séquences ayant une signature commune.
Nous verrons dans le chapitre consacré aux programmes de recherche de motifs, les avantages de chacune des définitions de motifs (motif consensus, matrice ou alignement multiple) ainsi que les différents algorithmes que l'on peut appliquer en fonction de ces définitions.