Analyse
bioinformatique des séquences
Parallèlement, pour les protéines, deux banques principales ont été créées.
Depuis 2002, l'ensemble des données protéiques ont été regroupées en un consortium intitulé UniProt. Devant la croissance quasi exponentielle des données et l'hétérogénéité des séquences contenues dans les principales bases de séquences généralistes, d'autres bases spécialisées sont apparues. Elles se sont constituées autour de thématiques biologiques ou tout simplement en vue de réunir les séquences d'une même espèce et d'en enrichir les annotations pour diminuer, ou lever les ambiguïtés laissées par les grandes banques publiques. A titre d'exemple on peut citer la base sur les séquences nucléiques d'Eschérichia coli ECD (Kröger et al., 1991), la base PDB des séquences protéiques dont la structure a été déterminée ou bien encore des bases de motifs nucléiques ou proteiques telles que TFD (Ghosh, 1993) ou PROSITE (Bairoch et Bucher, 1994). Le recensement et la description de toutes ces bases publiques généralistes et spécialisées liées à la structure primaire des séquences mais aussi liées à d'autres caractéristiques biologiques peuvent être consultées dans différentes revues (Bishop et al., 1987 ; Keil, 1990 ; Damerval et Dessen, 1992), et plus récemment dans des numéros spéciaux de la revue Nucleic Acids Research consacrés aux bases de données (1993, 1994 et 1996). Il existe également des bases de données spécifiques qui donnent des listes actualisées des différentes banques d'intérêt biologique comme LIMB (Listing of Molecular Biology Databases) (Keen et al, 1992). |