Analyse bioinformatique des séquences

Analyse bioinformatique des séquences

Les autres méthodes de comparaison

La plupart des autres méthodes utilisées et récemment développées ont été implémentées pour la comparaison avec les bases de données.
Ainsi, le score d'une comparaison peut être confrontée avec la distribution des scores obtenus lors de la recherche avec une base de données (Pearson, 1990 ; Gribskov et al., 1990). Là encore, cette distribution peut être approximativement normale et donc la fiabilité de l'étude peut être contestée. Cependant, la méthode a l'avantage d'intégrer dans l'analyse la composition biaisée de la banque de données ainsi que les faibles ressemblances qui sont dues à des propriétés intrinsèques aux séquences. Par exemple, des motifs protéiques hydrophobes ou hydrophiles peuvent être communs à plusieurs familles de séquences et ne pas refléter une grande spécificité entre deux séquences.
On peut établir également soi même la distribution des scores en traçant le logarithme du nombre d'occurrences d'un score (où classe de scores) en fonction des scores obtenus lors de la comparaison avec une banque de données. C'est ce que préconisent Collins et Coulson (1990) en utilisant une méthode des moindres carrés pour distinguer les scores significatifs de ceux distribués au hasard. L'avantage d'une telle méthode est qu'elle linéarise les scores obtenus par chance et permet une visualisation rapide des scores significatifs.
Une autre méthode utilisée pour les comparaisons avec les bases de données est celle développée par Karlin et Altschul (1990) qui considère la probabilité de trouver le plus haut score parmi toutes les paires de segments possibles entre deux séquences. Une paire de segments est une zone contiguë de résidus entre deux séquences. De ce fait, seules les ressemblances sans insertion-délétion sont considérées. Ce type d'approche n'est donc pas utilisable par les programmes d'alignement. Néanmoins cette méthode a l'avantage d'appliquer une rigueur statistique pour classer les ressemblances par leur probabilité d'apparition et non par leur score.
Il existe de nombreuses méthodes pour évaluer les comparaisons entre séquences. Certaines sont simples comme celle de Doolittle (1986) qui attribue des scores privilégiés aux acides aminés conservés lors de la comparaison. La somme de ces scores est ensuite confrontée à une courbe de référence qui donne un score significatif en fonction de la longueur des séquences. D'autres font appel à des outils mathématiques beaucoup plus complexes sans pour autant donner des résultats plus convaincants.

Document modifié, le 14 décembre, 2006

Mesure d'audience ROI statistique webanalytics par