Analyse
bioinformatique des séquences
La comparaison matricielle des deux séquences sous forme de chaîne d'entiers permet de localiser ensuite sur les séquences tous les endroits possédant des segments communs de longueur prédéfinie par le codage. Pour cela il suffit de repérer les positions des séquences où les codes sont identiques. Cette approche diminue considérablement les temps de recherche de similitude et localise rapidement les zones identiques entre deux séquences. La rapidité de la méthode est proportionnelle à la longueur du mot codé, mais bien évidemment, plus cette longueur est grande, plus le résultat est grossier. Par exemple, une codification numérique des séquences nucléiques avec des segments de longueur 5 peut ignorer des segments identiques de longueur 4. La principale utilité de ce principe est donc d'effectuer rapidement une comparaison, au détriment possible d'une certaine sensibilité. Exemple pour une séquence d'ADN Mots de 4 caractères SEQ TEST A C G T C G T T C G A T T A (N=14) . . . . 1 ACGT ---------- 2 CGTC ---------- 3 GTCG ---------- 4 TCGT --------- 5 CGTT ---------- 6 GTTC ---------- 7 TTCG ---------- 8 TCGA --------- 9 CGAT --------- 10 GATT --------- 11 ATTA ---------- SEQ BANQUE T C G A C G C G G A T (M=11) Le mot TCGA est commun aux deux séquences Mots de 5 caractères SEQ TEST A C G T C G T T C G A T T A (N=14) . . . . 1 ACGTC ------------- 2 CGTCG ------------- 3 GTCGT ------------- 4 TCGTT ------------ 5 CGTTC ------------- 6 GTTCG ------------- 7 TTCGA ------------- 8 TCGAT ------------ 9 CGATT ------------ 10 GATTA ------------ SEQ BANQUE T C G A C G C G G A T (M=11) On ne retrouve plus le motif commun entre les 2 séquences ce qui montre bien que plus la taille du mot est importante, plus la probabilité de trouver un motif commun entre les deux séquences est faible. |