Analyse bioinformatique des séquences

5. - La comparaison de séquences

5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences
5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences

 

Les matrices protéiques liées à l'évolution

Les matrices de type PAM, la matrice de mutation de Dayhoff

Elles sont sans aucun doute celles qui ont été les plus utilisées dans les programmes de comparaison de séquences protéiques. Elles représentent les échanges possibles ou acceptables d'un acide aminé par un autre lors de l'évolution des protéines (Dayhoff et al., 1978). Elles ont été déduites de l'étude de 71 familles de protéines (de l'ordre de 1300 séquences) très semblables (moins de 15% de différence) que l'on pouvait facilement aligner. De ces alignements, une matrice de probabilité a été calculée où chaque élément de la matrice donne la probabilité qu'un acide aminé A soit remplacé par un acide aminé B durant une étape d'évolution. Cette matrice de probabilité de mutation correspond en fait à une substitution acceptée pour 100 sites durant un temps d'évolution particulier, c'est à dire une substitution qui ne détruise pas l'activité de la protéine. On parle ainsi d'une 1PAM (Percent Accepted Mutations) matrice. Si l'on multiplie la matrice par elle-même un certain nombre de fois, on obtient une matrice XPAM qui donne des probabilités de substitution pour des distances d'évolution plus grande. Pour être plus facilement utilisable dans les programmes de comparaison de séquences, chaque matrice XPAM est transformée en une matrice de similitudes PAM-X que l'on appelle matrice de mutation de Dayhoff. Cette transformation est effectuée en considérant les fréquences relatives de mutation des acides aminés et en prenant le logarithme de chaque élément de la matrice. Des études de simulation ont montré que la PAM-250 semble optimale pour distinguer des protéines apparentées de celles possèdant des similarités dues au hasard (Schwartz et Dayhoff, 1979).
C'est pourquoi, la matrice PAM-250 est devenue la matrice de mutation standard de Dayhoff. Cette matrice est basée sur un échantillon assez large et représente assez bien les probabilités de substitution d'un acide aminé en un autre suivant que cette mutation engendre ou pas des changements dans la structure ou la fonctionnalité des protéines. Néanmoins, elle présente un certain nombre d'inconvénients. Principalement, elle considère que les points de mutation, c'est-à-dire les positions d'échange des acides aminés sont équiprobables au sein d'une même protéine (George et al., 1990). Or, on sait que ceci n'est pas vrai et qu'une protéine peut présenter plusieurs niveaux de variabilité. De plus, l'ensemble des protéines utilisé en 1978 n'est pas entièrement représentatif des différentes classes de protéines connues. Ainsi l'échantillon de 1978 était composé essentiellement de petites molécules solubles très différentes des protéines membranaires ou virales que l'on peut étudier aujourd'hui. Ce constat a conduit à une réactualisation de la matrice (Jones et al., 1992) en considérant 16130 séquences issues de la version 15 de Swissprot, ce qui correspond à 2621 familles de protéines. Cette étude a permis de prendre davantage en compte les substitutions qui étaient mal représentées en 1978.

Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006