Analyse
bioinformatique des séquences
7. - L'analyse de protéines
7.2 - La recherche d'éléments fonctionnels et/ou structuraux
: motifs et domaines [suite]
Description des motifs par un alignement multiple
La deuxième manière de définir un motif protéique est de fournir l'ensemble des sous-séquences qui ont servi à établir ou à valider le motif consensus. Ainsi la base BLOCKS (Henikoff et Henikoff,1991) donne sous forme d'alignements multiples sans insertion-délétion (ou blocs) les sous-séquences de Swissprot qui correspondent à des régions conservées. Ces régions sont des segments protéiques trouvés durant l'analyse de groupes spécifiques de protéines comme les kinases. L'intérêt d'une telle définition est qu'elle donne pour chaque position le degré de conservation ou de variabilité des acides aminés concernés. Par contre, pour certaines signatures protéiques, composées de plusieurs segments séparés par des régions de longueurs variables, elle nécessite la considération de plusieurs blocs.
Finalement, on peut considérer qu'il existe principalement deux façons de représenter l'information contenue dans les motifs, une assez résumée qui est la séquence consensus et l'autre qui permet de considérer les variations à chaque position qui sont les matrices consensus pour les séquences nucléiques et la présentation sous forme d'alignements multiples pour les protéines.
La méthode de comparaison par profil
Si le motif est défini par un alignement protéique, la méthode de recherche utilisée est celle dite d'une comparaison par profil (Gribskov et al.,1987 ; Gribskov et al.,1990). Elle consiste à convertir l'alignement multiple en une table qui reflète8 janvier, 2008ouver à une position particulière du motif, tout en considérant les propriétés mutationelles des acides aminés selon une matrice de substitution comme la matrice de Dayhoff. Cette table est appelée le profil du motif. Elle correspond en fait à une matrice de pondération particulière. Des méthodes basées sur une extension de l'algorithme de Smith et Waterman (1981) permettent ensuite d'aligner une séquence avec ce profil. Le principal intérêt de cette méthode est qu'elle permet l'introduction d'insertion-délétion dans la recherche tout en gardant une souplesse dans la définition du consensus.
Beaucoup de programmes sont dérivés de ce type d'approche. Le programme PROFILESEARCH en est l'application direct (Gribskov et al.,1990). Nous pouvons citer également le programme SCRUTINEER (Sibbald et Argos, 1990) qui permet de combiner avec la comparaison du profil d'autres critères comme la présence de structures secondaires ou la distance qui sépare des sous-motifs, le programme PATMAT (Wallace et Henikoff,1992) qui possède une bonne interface utilisateur mais qui ne considère pas l'introduction d'insertion-délétion durant la comparaison avec le profil, ceci pour diminuer le temps de recherche, ou encore le programme BLOCKSEARCHER (Fuchs,1993) qui recherche sur une séquence protéique l'ensemble des blocs protéiques contenus dans la base BLOCK convertis en profil.
S'exercer avec Blocksearcher