Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

5. - La comparaison de séquences
5.5 - Les principaux logiciels et programmes de comparaison avec les banques de séquences
5.5.1 - Introduction

La taille sans cesse croissante des banques de séquences a nécessité l'élaboration d'algorithmes spécifiques pour effectuer la comparaison d'une séquence avec une banque de données car les algorithmes standards de comparaison entre deux séquences sont généralement trop longs sur des machines classiques.

La plupart de ces programmes constituent des méthodes heuristiques. Leur but est de filtrer les données de la banque en étapes successives car peu de séquences vont avoir des similitudes avec la séquence comparée. Ces méthodes heuristiques utilisent donc certaines approximations pour éliminer rapidement les situations sans intérêt et ainsi repérer les séquences de la banque susceptibles d'avoir une relation avec la séquence recherchée. Ces programmes permettent ensuite de calculer un score pour mettre en évidence les meilleures similitudes qu'ils ont observées. Il existe de nombreux programmes qui répondent à cette fonction avec des approches qui peuvent être très différentes.

Nous nous limiterons ici à la description détaillée des deux types de programme les plus utilisés par les biologistes qui sont les logiciels FASTA (Pearson et Lipman, 1988) et BLAST (Altschul et al., 1990). Ces programmes ont une approche différente mais complémentaire pour effectuer des recherches à travers une base de données, mais sont basés tous les deux sur des méthodes très heuristiques. C'est pourquoi ils doivent être utilisés essentiellement comme logiciels permettant de repérer les séquences de la banque susceptibles d'avoir des ressemblances biologiques avec la séquence recherchée. Ils ne constituent pas des programmes optimisés pour comparer deux séquences entre elles. Très souvent, les résultats qu'ils procurent devront être confirmés ou renforcés par d'autres programmes plus spécialisés en particulier dans la recherche de caractéristiques biologiques.
Actuellement, seule, l'utilisation de machines parallèles ou massivement parallèles et de machines dites câblées donnent la possibilité d'utiliser des algorithmes plus rigoureux comme celui de Smith et Waterman (1981) pour la comparaison avec une banque de données.