Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

5. - La comparaison de séquences
5.5 - Les principaux logiciels et programmes de comparaison avec les bandes de séquences
5.5.2 - Généralités sur la qualité des logiciels

La notion de sensibilité/sélectivité
Sélectivité
Capacité à ne détecter que la réalité biologique et rien de plus
--> problème des faux-positifs

Sensibilité
Capacité à détecter tout ce qui est intéressant sur le plan biologique
--> problème des faux-négatifs

Les heuristiques ou le codage numérique
Une des méthodes les plus répandues est celle initialement proposée par Dumas et Ninio (1982). Elle permet la transformation d'une séquence en suite d'entiers à partir de la description classique faite en chaîne de caractères. Pour cela, on décompose une séquence en autant de segments de longueur fixe se chevauchant et l'on attribue un code à chacun de ces segments. Le code est un entier déterminé en fonction de l'alphabet utilisé dans la description des séquences et de la longueur du segment codé. On appelle cette méthode, la codification numérique des séquences et l'on parle de "mot" ou de "motif" pour les segments codés, la longueur des mots codés étant référencée comme uplet (triplet, quadruplet..) ou "k-tuple" en anglais.

Illustration du codage numérique
La comparaison matricielle des deux séquences sous forme de chaîne d'entiers permet de localiser ensuite sur les séquences tous les endroits possédant des segments communs de longueur prédéfinie par le codage. Pour cela il suffit de repérer les positions des séquences où les codes sont identiques.
Cette approche diminue considérablement les temps de recherche de similitude et localise rapidement les zones identiques entre deux séquences. La rapidité de la méthode est proportionnelle à la longueur du mot codé, mais bien évidemment, plus cette longueur est grande, plus le résultat est grossier. Par exemple, une codification numérique des séquences nucléiques avec des segments de longueur 5 peut ignorer des segments identiques de longueur 4. La principale utilité de ce principe est donc d'effectuer rapidement une comparaison, au détriment possible d'une certaine sensibilité.
Exemple pour une séquence d'ADN

Mots de 4 caractères

SEQ TEST       A  C  G  T  C  G  T  T  C  G  A  T  T  A  (N=14)
.  .  .  .
1 ACGT        ----------
2 CGTC           ----------
3 GTCG              ----------
4 TCGT                 ---------
5 CGTT                    ----------
6 GTTC                       ----------
7 TTCG                          ----------
8 TCGA                             ---------
9 CGAT                                ---------
10 GATT                                   ---------
11 ATTA                                      ----------

SEQ BANQUE    T  C  G  A  C  G  C  G  G  A  T  (M=11)

Le mot TCGA est commun aux deux séquences

Mots de 5 caractères

SEQ TEST       A  C  G  T  C  G  T  T  C  G  A  T T  A (N=14)
.  .  .  .

1 ACGTC        -------------
2 CGTCG          -------------
3 GTCGT              -------------
4 TCGTT                 ------------
5 CGTTC                    -------------
6 GTTCG                       -------------
7 TTCGA                          -------------
8 TCGAT                             ------------
9 CGATT                                ------------
10 GATTA                                   ------------

SEQ BANQUE    T  C  G  A  C  G  C  G  G  A  T   (M=11)

On ne retrouve plus le motif commun entre les 2 séquences ce qui montre bien que plus la taille du mot est importante, plus la probabilité de trouver un motif commun entre les deux séquences est faible.