Analyse
bioinformatique des séquences
Il faut avoir conscience que l'information contenue dans ces bases présente un certain nombre de lacunes. Une des principales est le manque de vérifications des données soumises ou saisies surtout pour les séquences anciennes. Les auteurs des séquences ont parfois du mal à restituer les connaissances qu'ils détiennent à propos de leurs données ou bien n'ont pas fait un certain nombre de vérifications de base sur leurs séquences. Il arrive par exemple, que l'on retrouve des segments de vecteurs de clonage dans certaines séquences ou des incohérences dans les caractéristiques biologiques (parties codantes, définition des espèces ou des mots clés...) ou bien encore des informations biologiques incomplètes, voire erronées. De ce point de vue l'établissement d'un thesaurus précis pour les mots clés faciliterait la vérification comme cela a été permis avec la définition d'arbres des espèces utilisés par plusieurs banques de données. Les organismes responsables de la maintenance de ces banques ont pris conscience de ces problèmes et maintenant de nombreuses vérifications sont faites systématiquement dès la soumission de la séquence.
|