Analyse bioinformatique des séquences

5. - La comparaison de séquences

5.5 - Les principaux logiciels et programmes de comparaison avec les banques de séquences
5.5.3 - L'estimation statistique des résultats

 
Introduction

En bioinformatique, lorsque l'on effectue des comparaisons entre séquences biologiques, cela revient essentiellement à des comparaisons de chaînes de caractères. Bien sûr, on peut donner aux caractères une composante biologique réelle à travers les matrices de scores élémentaires mais il est souvent utile d'essayer de déterminer si ce que l'on observe a une signification biologique ou est simplement du au hasard. Pour cela, on peut effectuer des statistiques simples qui permettent d'estimer la signification des résultats.

Les méthodes pratiques ou empiriques

Pour certaines comparaisons, la ressemblance est tellement forte, que la relation biologique entre les séquences est évidente. Néanmoins, très souvent, pour d'autres situations moins faciles, des méthodes empiriques peuvent être utilisées. Une des premières qui a été considérée est le pourcentage d'identité.
Il faut cependant être méfiant avec ce critère car il doit obligatoirement être relié à la longueur de la similitude considérée et sa signification est différente selon que l'on étudie des séquences nucléiques ou protéiques.
En effet des séquences protéiques de 100 résidus ou plus, possédant au moins 25% d'identité entre elles ont certainement un ancêtre commun (Doolittle, 1990) alors que deux séquences nucléiques d'au moins 100 bases et identiques à 50% n'ont pas forcément de relation biologique. Ceci est du essentiellement au fait que la fréquence génomique d'une base est relativement élevée (environ 25%).
On peut également douter d'un alignement s'il nécessite plus d'une insertion en moyenne pour 20 acides aminés, ou si de faibles changements (environ 10%) dans l'établissement des pénalités d'insertion-deletion modifient sensiblement cet alignement (Sates et Boguski, 1991). Souvent les programmes n'incluent pas de tests statistiques et il appartient alors à l'utilisateur d'en établir un lui-même s'il désire estimer mathématiquement la signification de ses résultats.


Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006