Analyse
bioinformatique des séquences
1. - Introduction
1.3 - Les différentes facettes de la bioinformatique
Pour l'analyse des données expérimentales que représentent les séquences biologiques, l'apport informatique concerne principalement quatre aspects :
Compilation et organisation des données
Cet aspect concerne essentiellement la création de bases de données. Certaines ont pour vocation de réunir le plus d'informations possible sans expertise particulière de l'information déposée alors que d'autres sont spécialisées dans un domaine considéré avec l'intervention d'experts. Ces dernières bases sont généralement construites autour de thèmes précis comme l'ensemble des séquences d'une même espèce ou les facteurs de transcription. Incontestablement, toutes ces banques de données constituent une source de connaissance d'une grande richesse que l'on peut exploiter dans le développement de méthodes d'analyse ou de prédiction.
Traitements systématiques des séquences
L'objectif principal est de repérer ou de caractériser une fonctionnalité ou un élément biologique intéressant. Ces programmes représentent les traitements couramment utilisés dans l'analyse des séquences comme l'identification de phases codantes sur une molécule d'ADN ou la recherche de similitudes d'une séquence avec l'ensemble des séquences d'une base de données.
Elaboration de stratégies
Le but est d'apporter des connaissances biologiques supplémentaires que l'on pourra ensuite intégrer dans des traitements standard. On peut donner comme exemples la mise au point de nouvelles matrices de substitution des acides aminés, la détermination de l'angle de courbure d'un segment d'ADN en fonction de sa séquence primaire, ou encore la détermination de critères spécifiques dans la définition de séquences régulatrices.
Evaluation des différentes approches dans le but de les valider
Très souvent, tous ces aspects se confondent ou sont étroitement imbriqués pour donner naissance à un ensemble d'outils, d'études ou de méthodes qui convergent vers un but commun que l'on appelle l'analyse informatique des séquences.
Il est maintenant facile et courant d'effectuer certaines opérations plus ou moins complexes à l'aide de logiciels plutôt que manuellement. Pourtant, ces pratiques ne sont pas toujours systématiques car il est souvent difficile pour certains utilisateurs de savoir quel programme utiliser en fonction d'une situation biologique déterminée ou d'exploiter les résultats fournis par une méthode. C'est pourquoi ce cours contient la présentation d'un certain nombre d'outils ou de méthodes couramment utilisés et reconnus dans l'analyse informatique des séquences. Cependant, cette présentation ne constitue en aucun cas un exposé exhaustif de tout ce qui existe.