Analyse
bioinformatique des séquences
5. - La comparaison de séquences
5.6 - Le logiciel BLAST
Les différentes étapes de l'algorithme
La stratégie de la recherche consiste à repérer tous les HSPs (fragments similaires) entre la séquence recherchée et les séquences de la base. Pour déterminer un HSP, des mots de longueur fixe sont identifiés dans un premier temps entre la séquence recherchée et la séquence de la banque. Dans le cas des acides nucléiques, cela revient à des recherches d'identité entre les deux séquences sur des segments de longueur fixe (généralement
11).
Par contre dans le cas des protéines, on effectue d'abord une liste de mots similaires pour chaque mot de longueur fixe (généralement 3) de la séquence recherchée et l'on repère ensuite dans la banque les séquences qui possèdent
au moins un de ces mots.
Un mot similaire est un mot qui, comparé avec un mot de la séquence recherchée, obtient un score supérieur à un score seuil lorsque l'on considère une matrice de substitution. Dans un deuxième temps, on cherche à étendre la similitude dans les deux directions le long de chaque séquence, à partir du mot commun, de manière à ce que le score cumulé puisse être amélioré.
L'extension s'arrêtera dans les trois cas suivants:
- Si le score cumulé descend d'une quantité x donné par rapport à la valeur maximale qu'il avait atteint.
- Si le score cumulé devient inférieur ou égal à zéro.
- Si la fin d'une des deux séquences est atteinte.
La signification des segments similaires obtenus est ensuite évaluée statistiquement et seuls seront conservés les HSP significatifs.