Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

5. - La comparaison de séquences
5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences
5.5.4 - Généralités sur les paramètres des logiciels de comparaison de séquences

L'opération d'insertion/deletion présente un coût qu'il faut pouvoir pondérer au plus proche de la réalité biologique. Différents systèmes de pondération ont été proposés :
Pénalité fixe par gap : P=k
Pénalité variable en fonction de la longueur du gap : P= x+yL
P : le coût global du gap de longueur L
x : la pénalité fixe d'insertion indépendante de la longueur
y : la pénalité d'extension pour un élément (souvent x=10y).

Avec ce système, une longue insertion est légèrement plus pénalisante qu'une courte, ce qui revient en fait à minimiser l'introduction même d'une insertion. Autrement dit, on facilitera souvent dans un alignement le fait d'avoir peu d'insertions, éventuellement longues, plutôt que d'avoir beaucoup d'insertions d'un seul élément. Ceci est tout à fait en concordance avec les événements biologiques observés car il peut se produire par exemple une seule deletion de plusieurs bases plutôt que plusieurs pertes indépendantes d'une seule base.

Il existe d'autres systèmes de pondération plus complexes en cours de recherche.

Dans certains cas, le poids des pénalités peut être établi en fonction des endroits où elles se trouvent pour améliorer la sensibilité de la recherche. Par exemple, on peut définir des choix de pénalités à l'intérieur de régions protéiques ayant potentiellement une qualité physique ou chimique particulière. Argos et Vingron (1990) ont développé de telles méthodes pour des structures comme les feuillets béta ou l'hydrophobicité. Enfin, dans tous les cas, la recherche d'alignements optimaux est basée sur le fait que les séquences doivent contenir un grand nombre d'éléments identiques ou équivalents.

Mais, dans les principaux logiciels disponibles actuellement, vous trouverez ce système de pondération longueur dépendant.