Analyse
bioinformatique des séquences
5. - La comparaison de séquences
5.5 - Les principaux logiciels et programmes de comparaison avec les
banques de séquences
5.5.3 - L'estimation statistique des résultats
Introduction
En bioinformatique, lorsque l'on effectue des comparaisons entre séquences biologiques, cela revient essentiellement à des comparaisons de chaînes de caractères. Bien sûr, on peut donner aux caractères une composante biologique réelle à travers les matrices de scores élémentaires mais il est souvent utile d'essayer de déterminer si ce que l'on observe a une signification biologique ou est simplement du au hasard. Pour cela, on peut effectuer des statistiques simples qui permettent d'estimer la signification des résultats.
Les méthodes pratiques ou empiriques
Pour certaines comparaisons, la ressemblance est tellement forte, que la
relation biologique entre les séquences est évidente. Néanmoins, très souvent, pour d'autres situations moins faciles, des méthodes empiriques peuvent être utilisées. Une des premières qui a été considérée est le pourcentage d'identité.
Il faut cependant être méfiant avec ce critère car il doit obligatoirement être relié à la longueur de la similitude considérée et sa signification est différente selon que l'on étudie des séquences nucléiques ou protéiques.
En effet des séquences protéiques de 100 résidus ou plus, possédant au moins 25% d'identité entre elles ont certainement un ancêtre commun (Doolittle, 1990) alors que deux séquences nucléiques d'au moins 100 bases et identiques à 50% n'ont pas forcément de relation biologique. Ceci est du essentiellement au fait que la fréquence génomique d'une base est relativement élevée
(environ 25%).
On peut également douter d'un alignement s'il nécessite plus d'une insertion en moyenne pour 20 acides aminés, ou si de faibles changements (environ 10%) dans l'établissement des pénalités
d'insertion-deletion modifient sensiblement cet alignement (Sates
et Boguski, 1991). Souvent les programmes n'incluent pas de tests statistiques
et il appartient alors à l'utilisateur d'en établir un lui-même s'il désire estimer mathématiquement la signification de ses résultats.