Analyse bioinformatique des séquences

3. - Les banques et bases de séquences biologiques

3.3 - Les banques généralistes - La qualité des données [suite]

 

Malgré cela, il faut souligner l'énorme richesse que représentent ces banques de données, en particulier dans le cadre de l'analyse des séquences.

Tout d'abord, le fait que la majorité des séquences connues soit réunie en un seul ensemble est un élément fondamental pour la recherche de similitudes avec une nouvelle séquence. D'autre part, la grande diversité d'organismes qui y est représentée permet d'aborder des analyses de type évolutif.

Par exemple, on peut extraire les séquences d'un même gène issu de plusieurs espèces. Un autre intérêt de ces bases réside dans l'information qui accompagne les séquences (annotations, expertise, bibliographie), même si celles-ci sont souvent de qualité inégale. Ces dernières peuvent parfois constituer les rares annotations disponibles sur certaines séquences. Enfin la présence de références à d'autres bases permet d'avoir accès à d'autres informations non répertoriées. Ainsi on peut connaître l'entrée dans une base protéique de la protéine qui correspond au gène que l'on a repéré dans une base nucléique.

La banque SWISSPROT particulièrement riche en références croisées avec d'autres banques et en annotations (par exemple, la notion de "prouvé ou pas expérimentalement" a été récemment introduite dans la table des caractéristiques biologiques) est un exemple de la qualité des données que l'on peut retrouver dans les différentes banques de séquences généralistes de ces dernières années.


Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006