Analyse bioinformatique des séquences

3. - Les banques et bases de séquences biologiques

3.3 - Les banques généralistes - La qualité des données

 

Il faut avoir conscience que l'information contenue dans ces bases présente un certain nombre de lacunes. Une des principales est le manque de vérifications des données soumises ou saisies surtout pour les séquences anciennes. Les auteurs des séquences ont parfois du mal à restituer les connaissances qu'ils détiennent à propos de leurs données ou bien n'ont pas fait un certain nombre de vérifications de base sur leurs séquences. Il arrive par exemple, que l'on retrouve des segments de vecteurs de clonage dans certaines séquences ou des incohérences dans les caractéristiques biologiques (parties codantes, définition des espèces ou des mots clés...) ou bien encore des informations biologiques incomplètes, voire erronées. De ce point de vue l'établissement d'un thesaurus précis pour les mots clés faciliterait la vérification comme cela a été permis avec la définition d'arbres des espèces utilisés par plusieurs banques de données. Les organismes responsables de la maintenance de ces banques ont pris conscience de ces problèmes et maintenant de nombreuses vérifications sont faites systématiquement dès la soumission de la séquence.

Ceci n'élimine pas la totalité des imprécisions comme par exemple l'existence de doublons car il s'agit là de séquences extrêmement similaires qui correspondent à des entrées différentes dans la banque et dont il est souvent difficile de savoir s'il s'agit de polymorphisme, de gènes dupliqués ou tout simplement d'erreurs établies lors de la détermination des séquences. Il existe d'ailleurs des boites aux lettres électroniques (e- mail) pour informer les gestionnaires des banques d'éventuelles erreurs ou rectifications que chacun pourrait déceler ou proposer.

Un autre problème important est le retard de l'insertion d'une nouvelle séquence dans une banque, lié souvent au volume des séquences à traiter qui engendre des priorités ou des choix. Ainsi, il peut y avoir une dizaine de mois de décalage entre la détermination expérimentale d'une séquence et l'introduction de celle-ci dans une banque.


Ecran suivant

© Université de TOURS - NET

Document modifié, le 14 décembre, 2006