Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

3. - Les banques et bases de séquences biologiques
3.2 - Historique [Suite]

Parallèlement, pour les protéines, deux banques principales ont été créées.
La première, sous l'influence du National Biomedical Research Foundation (NBRF) à Washington, produit maintenant une association de données issues du MIPS (Martinsried Institute for Protein Sequences), de la base Japonnaise JIPID (Japan International Protein Information Database) et des données propres de la NBRF. Elle se nomme la Protein Identification Ressource (PIR-NBRF) (George et al., 1986).
La deuxième, Swissprot a été constituée à l'Université de Genève à partir de 1986 et regroupe entre autres des séquences annotées de la PIR-NBRF ainsi que des séquences codantes traduites de l'EMBL (Bairoch et Boeckmann, 1993 et 1994).

Depuis 2002, l'ensemble des données protéiques ont été regroupées en un consortium intitulé UniProt.

Illustration de la croissance des banques
Devant la croissance quasi exponentielle des données et l'hétérogénéité des séquences contenues dans les principales bases de séquences généralistes, d'autres bases spécialisées sont apparues.
Elles se sont constituées autour de thématiques biologiques ou tout simplement en vue de réunir les séquences d'une même espèce et d'en enrichir les annotations pour diminuer, ou lever les ambiguïtés laissées par les grandes banques publiques.
A titre d'exemple on peut citer la base sur les séquences nucléiques d'Eschérichia coli ECD (Kröger et al., 1991), la base PDB des séquences protéiques dont la structure a été déterminée ou bien encore des bases de motifs nucléiques ou proteiques telles que TFD (Ghosh, 1993) ou PROSITE (Bairoch et Bucher, 1994).

Le recensement et la description de toutes ces bases publiques généralistes et spécialisées liées à la structure primaire des séquences mais aussi liées à d'autres caractéristiques biologiques peuvent être consultées dans différentes revues (Bishop et al., 1987 ; Keil, 1990 ; Damerval et Dessen, 1992), et plus récemment dans des numéros spéciaux de la revue Nucleic Acids Research consacrés aux bases de données (1993, 1994 et 1996). Il existe également des bases de données spécifiques qui donnent des listes actualisées des différentes banques d'intérêt biologique comme LIMB (Listing of Molecular Biology Databases) (Keen et al, 1992).