|
Analyse
bioinformatique des séquences
5. - La comparaison de séquences
5.7 - Le logiciel BLAST
L'intérêt de l'algorithme est que sa conception est basée sur un modèle statistique. Celui-ci a été établi d'après les méthodes statistiques de Karlin et Altschul (1990 ; 1993) qui s'appliquent aux comparaisons de séquences sans insertion-délétion.
L'unité fondamentale de BLAST est le HSP (High-scoring Segment Pair). C'est un couple de fragments identifiés sur chacune des séquences comparées, de longueur égale mais non prédéfinie, et qui possède un score significatif. En d'autres termes, un HSP correspond à un segment commun, le plus long possible, entre deux séquences qui correspond à une similitude sans insertion-délétion ayant au moins un score supérieur ou égal à un score seuil. Un deuxième score MSP (Maximal-scoring Segment Pair) a été défini comme étant le meilleur score obtenu parmi tous les couples de fragments possibles que peuvent produire deux séquences. Les méthodes statistiques de Karlin et Altschul sont appliquées pour déterminer la signification biologique des MSPs et par extrapolation la signification des scores HSPs obtenus lors de la comparaison.
Ce logiciel possède en fait quatre programmes distincts de comparaison avec les bases de données. BLASTN (séquence nucléique contre base nucléique), BLASTP (séquence protéique contre base protéique), BLASTX (séquence nucléique traduite en 6 phases contre base protéique), et TBLASTN (séquence protéique contre base nucléique traduite en 6 phases).
|