Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

5. - La comparaison de séquences
5.4 - Les principes de base pour identifier la ressemblance entre deux séquences
5.4.4 - La recherche de segments similaires

L'algorithme élémentaire de ce type de recherche est basé sur la comparaison de fenêtres de longueur fixe que l'on déplace le long des séquences. Soit deux séquences A et B à comparer et l la longueur de la fenêtre. On détermine sur la séquence A une première fenêtre de longueur l que l'on va comparer avec toutes les fenêtres possibles de même longueur, obtenues à partir de la séquence B. Un incrément est alors appliqué pour déterminer une deuxième fenêtre sur la séquence A, puis l'on recommence le balayage des comparaisons sur la séquence B. Si l'on choisit un incrément de 1 et que les séquences ont respectivement une longueur de m et n éléments, on effectuera de l'ordre de n x m comparaisons de fenêtres différentes.
Pour chaque comparaison entre deux fenêtres, un score est obtenu et l'on mémorisera uniquement les comparaisons dont les scores sont jugés significatifs, c'est-à-dire supérieurs ou égaux à un seuil que l'on s'est fixé. Par exemple lorsque le score correspond au minimum à 80% d'identité avec l'utilisation d'une matrice unitaire nucléique comme matrice de scores élémentaires.
Les comparaisons sauvegardées qui correspondent à des positions chevauchantes des fenêtres peuvent éventuellement être concaténées pour faire ressortir, à l'édition des résultats, les meilleures zones de similitudes entre les deux séquences.

Application : le programme Diagon de Staden
Ce programme (Staden, 1982) utilise directement l'algorithme décrit ci-dessus en faisant une édition graphique des résultats. Sur le graphe, chacun des deux axes correspond à une séquence. On placera un point aux coordonnées i et j du graphe, i et j étant les positions centrées de chacune des fenêtres considérées, quand le score obtenu en comparant les deux fenêtres est supérieur au seuil fixé. On appelle un tel point, un point de similitude et un tel graphe, une matrice de points. Le tracé du graphe donne alors tous les points de similitude, c'est-à-dire la représentation de tous les segments similaires considérés comme significatifs. Quand deux séquences se ressemblent, une ligne diagonale se dessine sur le graphe par juxtaposition des points de similitude.