Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

5. - La comparaison de séquences
5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences
5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences

La pondération des substitutions

> Séquences d'ADN
On considère 2 coûts :
coût d'un "match"
valeur positive
coût d'un "mismatch"
valeur négative

> Séquences protéiques : les matrices
Si un système basé uniquement sur l'identité donne une sensibilité satisfaisante pour les acides nucléiques, celui-ci devient moins approprié pour les séquences protéiques. Si l'on considère qu'un acide aminé peut être substitué à un autre en fonction de certaines propriétés sans que la structure ou la fonctionnalité d'une protéine soit grandement altérée, on peut classer les acides aminés en familles et obtenir ainsi un système de scores qui rende compte de l'affinité des résidus protéiques entre eux.
Les matrices de scores qui en découlent permettront d'augmenter la fiabilité des recherches de similitudes protéiques. Une des premières matrices à utiliser ce principe a été celle déduite de la dégénérescence du code génétique (Fitch, 1966). Les scores élémentaires ont été alors déterminés en fonction du nombre commun de nucléotides présents dans les codons des acides aminés, ce qui revient à considérer le minimum de changements nécessaires en bases pour convertir un acide aminé en un autre.
Depuis de nombreuses matrices ont été créées et l'on peut classer celles-ci en deux catégories. La première est celle qui regroupe plutôt les matrices issues d'études montrant le caractère de substitution des acides aminées au cours de l'évolution et la deuxième est basée plus particulièrement sur les caractéristiques physico-chimiques des acides aminés. Nous présenterons ici les matrices les plus couramment utilisées sans donner de liste exhaustive de toutes celles qui ont été déterminées.