Analyse bioinformatique des séquences

7. - L'analyse de protéines

7.2 - La recherche d'éléments fonctionnels et/ou structuraux : motifs et domaines


Les motifs protéiques

La définition des motifs protéiques se représente généralement de deux manières, soit par la détermination d'une séquence consensus qui est généralement complexe (avec des ambiguïtés à certaines positions et des sous-séquences séparées par des régions variables), soit en fournissant directement sous forme d'alignement multiple, toutes les portions de séquences qui ont servi à l'élaboration du consensus.

Description des motifs par une séquence consensus

Pour établir une séquence consensus, on peut réunir toutes les séquences appartenant à une même famille (par exemple, les cytochromes ou les kinases). On recherche ensuite les zones spécifiques qui peuvent être considérées comme caractéristiques de ces séquences, ceci en s'aidant des données disponibles dans la littérature et si possible d'experts de la famille considérée. Les motifs ainsi obtenus sont alors systématiquement recherchés dans une banque de séquences protéiques pour estimer leur fiabilité qui repose sur le nombre de faux positifs et de faux négatifs identifiés. Une bonne définition doit minimiser ces deux nombres. C'est une des méthodes qu'utilise Amos Bairoch pour constituer la banque de motifs protéiques PROSITE (Bairoch, 1993).
On peut également utiliser pour définir un motif protéique une méthode globale qui, à partir d'un grand ensemble hétérogène de séquences, permet de regrouper des séquences possédant le même motif. Cette démarche est appliquée pour 8 janvier, 2008séquences de la base Swissprot sont comparées deux à deux avec le programme BLAST pour permettre de regrouper tous les segments protéiques similaires. On parle ici de domaine protéique qui caractérise statistiquement une famille de protéines. Ces domaines peuvent être employés comme motifs spécifiques pour savoir si une nouvelle séquence s'apparente ou pas à l'un de ces domaines. Enfin, comme pour les séquences nucléiques, on peut aussi effectuer un alignement multiple des régions qui caractérisent une fonction et en déduire un motif consensus protéique.

Les logiciels de recherche des motifs consensus

Si le motif est défini par une séquence consensus, il existe des méthodes et logiciels pour rechercher dans une séquence personnelle la présence de tel ou tel motif. C'est le cas du logiciel ScanProsite qui permet de rechercher la présence dans une séquence d'un motif défini dans la banque PROSITE. Pour les domaines protéiques définis dans PRODOM, le logiciel de recherche proposé est Blast.

Exercices
S'exercer avec ScanProsite
S'exercer avec ProdomBlast


Ecran suivant

© Université de TOURS - GENET

Document modifié, le 13 septembre, 2007