Analyse bioinformatique des séquences

2. - L'information contenue dans les séquences biologiques

2.2 - Représentation de l'information contenue dans les données de type séquences

 

Les séquences nucléiques sont généralement représentées par des chaînes de caractères sur l'alphabet à 4 lettres ATGC. Un cinquième caractère (N) est défini pour tenir compte des erreurs de séquençage.
Pour les protéines, elles sont représentées par des chaînes de caractères sur l'alphabet composé par les 20 acides aminés. Comme pour les acides nucléiques, un caractère supplémentaire est ajouté à l'alphabet pour prendre en compte les ambiguïtés dans les données.

Le choix d'un modèle pour représenter les séquences biologiques n'est pas trivial et constitue une voie de recherche à part entière. Il est en effet difficile de définir en informatique les objets que manipulent les biologistes.

D'une manière générale, il ne faut jamais oublier qu'un modèle ne reflète qu'une partie de la réalité biologique et que de nombreuses questions restent posées.
Par exemple, comment générer automatiquement une séquence biologiquement plausible ?
Une des approches développée actuellement se base sur les modèles de Markov cachés (HMM) qui permettent de représenter de façon statistique l'information contenue dans les séquences biologiques.

D'une manière plus générale on voit apparaître depuis quelques années une approche par modélisation. Selon cette approche par modélisation, les objets (ex. : séquences, structures, motifs, etc., ...) ne sont plus étudiés (alignés, classés, etc.) par comparaison directe (deux à deux ou multiple), mais à travers la construction d'un modèle qui tente, dans une première étape, d'en capturer les propriétés communes.


En savoir plus sur la modélisation