Analyse
bioinformatique des séquences
5. - La comparaison de séquences
5.6 - Le logiciel BLAST
Les qualités de l'algorithme
Le principal avantage est que le fondement de l'algorithme s'appuie avant
tout sur des critères statistiques. Celle-ci est faite en fonction de la longueur et de la composition de la séquence, de la taille de la banque et de la matrice de scores utilisée. Cette estimation donne en fait la probabilité que l'on a d'observer au hasard une similitude de ce score à travers la banque de séquences considérée. Lorsque plusieurs HSPs sont trouvées sur la même séquence, le programme utilise alors une méthode de "somme statistique" (Karlin et Altschul, 1993) qui considère que la signification statistique d'un ensemble de HSPs doit être plus élevée que n'importe quel HSP appartenant à cet ensemble. Les HSPs, dont la signification statistique satisfait une valeur seuil désignée par l'utilisateur sont ensuite édités.
Un autre point intéressant de la méthode (essentiellement pour les protéines) est que la première étape de reconnaissance des similarités ne recherche pas uniquement des zones d'identité mais accepte la présence de similitudes en considérant une matrice de scores. Ceci permet d'intégrer dès le début de la recherche les critères biologiques compris dans la matrice. De plus, les résultats peuvent être édités selon plusieurs tris possibles et en particulier selon leur signification statistique et non suivant la valeur de leur score. On retrouvera donc les segments les plus probables en début de liste. Ce logiciel a été très optimisé dans son écriture, notamment par une précodification de la banque, ce qui lui vaut d'être un des plus rapides tout en conservant une sensibilité satisfaisante. De plus, il possède des versions qui s'exécutent sur machines parallèles.
Comme la recherche dans la banque de données est basée sur l'identification de segments, le bruit de fond est plus présent dans ce type d'approche. Il est généralement du à des qualités intrinsèques de la séquence recherchée comme la présence de régions répétées internes, ou la présence de segments de basse complexité non spécifiques d'une caractéristique biologique mais communs à plusieurs familles de protéines, par exemple les segments basiques ou acides. Des logiciels complémentaires qui opèrent comme filtres peuvent être utilisés comme paramètres dans les programmes BLAST pour remédier à ces problèmes. Ainsi, le programme SEG (Wootton et Federhen, 1993) masque des régions de faible complexité et le programme XNU (Claverie et States, 1993) cache des régions répétées de courte périodicité.
Exemple de fichier résultat