Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

3. - Les banques et bases de séquences biologiques
3.5 - La diffusion et l'utilisation des banques de données - L'utilisation

Pour que les bases de données soient plus facilement exploitables, et que les utilisateurs puissent extraire les sous-ensembles de séquences qui les intéressent, deux types de logiciels leur sont généralement offerts soit localement, soit sur les nombreux serveurs publics.
Les premiers logiciels sont des systèmes d'interrogation dédiés qui sont programmés exclusivement pour la manipulation de séquences biologiques.
Par contre, les deuxièmes sont des programmes établis à l'aide de systèmes de gestion de bases de données (SGBD) qui utilisent un langage de requête standard et un format de stockage des données indépendant de la nature de l'information contenue dans les bases.

Les systèmes dédiés

Il existe plusieurs systèmes dédiés dont la plupart permettent des interrogations multicritères simples. On en trouvera une liste assez complète dans une publication de Ginsburg (1987). Ils sont généralement adaptés aux principales bases de données (EMBL, GenBank etc...). On peut citer parmi eux le programme Stringsearch du logiciel GCG (Devereux et al., 1984) qui permet une interrogation à deux critères. D'autres permettent des interrogations plus complexes comme les logiciels ACNUC (Gouy et al., 1985) ou SRS (Etzold et Argos, 1993). Ces deux logiciels méritent que l'on s'y attarde un peu plus car le premier est l'un des plus performants pour l'interrogation des bases de biomolécules et le deuxième illustre assez bien l'orientation des nouveaux logiciels développés dans le domaine durant les dernières années.