Analyse
bioinformatique des séquences
3. - Les banques et bases de séquences biologiques
3.4 - Les banques spécialisées - Les bases de motifs [suite]
Les bases de motifs protéiques
Il existe principalement deux types de bases de motifs qui permettent de recenser des signatures protéiques liées à des activités biologiques. Celles qui regroupent des motifs consensus et celles qui donnent des régions actives sous forme d'alignements multiples. Nous présenterons ici deux bases couramment utilisées qui reflètent ces deux aspects.
La base de motifs protéiques PROSITE
La base PROSITE peut être considérée comme un dictionnaire qui recense des motifs protéiques ayant une signification biologique. Elle est établie en regroupant, quand cela est possible, les protéines contenues dans Swissprot par famille comme par exemple les kinases ou les protéases. On recherche ensuite, au sein de ces groupes, des motifs consensus susceptibles de les caractériser spécifiquement.
La conception de la base repose sur quatre critères essentiels : 1) collecter le plus possible de motifs significatifs, 2) avoir des motifs hautement spécifiques pour caractériser au mieux une famille de protéines, 3) donner une documentation complète sur chacun des motifs répertoriés, et 4) faire une révision périodique des motifs pour s'assurer de leur validité par rapport aux dernières expérimentations. L'essentiel de l'expertise est basé sur un réseau de correspondants spécialistes des sujets traités.
La base est organisée en deux parties. La première contient l'identification et la description de chaque motif. La deuxième contient l'information qui documente chaque motif (Bairoch, 1993 ; Bairoch et Bucher, 1994).