Analyse
bioinformatique des séquences
Le choix d'une matrice protéique Il existe maintenant de nombreuses matrices et il est souvent difficile de savoir laquelle doit être utilisée dans les différents programmes de comparaison de séquences protéiques, car de toute évidence, la sensibilité des méthodes dépend aussi de la qualité des matrices. Les premières études comparatives sur l'utilisation de différentes matrices (pour exemple, Feng et al., 1985 ; Taylor, 1986 ; Argos, 1987 ; Risler et al., 1988) montraient déjà qu'il n'existe pas de matrice idéale. Ces études mettaient en évidence, par exemple, que la matrice PAM250 de Dayhoff donne un poids trop important à l'identité et n'est pas bien adaptée à la comparaison de protéines très distantes car elle ne renferme pas suffisamment d'informations structurales. C'est pourquoi, l'utilisation de matrices différentes selon le type de similarité recherché a commencé à être suggérée (Collins et al., 1988). Ainsi, dans une étude sur les matrices de type PAM, Altschul (1991) conseille pour les méthodes d'alignements locaux (cf. la recherche d'alignements optimaux, les alignements globaux et locaux), la matrice PAM40 pour retrouver des alignements courts avec des protéines très semblables et les matrices PAM120 et PAM250 pour des alignements plus longs et de plus faible ressemblance. Il préconise également l'utilisation de la PAM120 lorsque l'on ne connaît pas a priori le degré de ressemblance de deux séquences comme c'est le cas par exemple dans les programmes de recherche de similitudes avec les banques de données. Des études plus récentes indiquent que les matrices mises au point ces dernières années sont généralement plus performantes que celle établies par Dayhoff en 1978, en particulier parce qu'elles sont construites à partir d'un nombre beaucoup plus important de données. Ainsi Henikoff et Henikoff (1993) ont évalué plusieurs matrices en utilisant le programme BLAST de recherche de similitude sans insertion-deletion. Leur étude a établit que les matrices dérivées directement des comparaisons de séquences ou des comparaisons de structure sont supérieures à celles qui sont extrapolées du modèle d'évolution de Dayhoff. En particulier ils concluent que la matrice BLOSUM 62 permet d'obtenir les meilleurs résultats. Néanmoins, Pearson (1995), dans une étude comparative de différentes méthodes de recherche avec les bases de données a pu montrer l'importance de l'algorithme et de son paramètrage dans l'utilisation des matrices de substitution. Ainsi, les matrices de type PAM déterminées à partir de données récentes comme celles de Jones et al. (1992) peuvent donner des résultats comparables à ceux obtenus avec les meilleures matrices de type BLOSUM (62 ou 50 par exemple). Récemment, Vogt et al, (1995) ont testé également un grand nombre de matrices de substitution d'acides aminés pour tenter de les évaluer en fonction des méthodes de comparaison de séquences protéiques et des systèmes de pénalité d'insertion-deletion utilisés. S'il apparaît une relative similarité dans les résultats pour les fortes ressemblances entre séquences, les conclusions de cette étude montrent que l'ensemble des matrices donne de meilleurs résultats avec les alignements globaux et que leurs performances peuvent varier très significativement selon le système de pénalité d'insertion-deletion que l'on choisit (cf. la recherche d'alignements optimaux, le traitement des insertions et des deletions). Cette étude révèle également, à l'issue de différentes combinaisons de matrices, d'algorithmes et de pénalité, que la matrice établie par Gonnet et al. (1992) est celle qui donne les meilleurs résultats. Cette dernière a été construite à partir d'une base de données protéique de 8344353 acides aminés ou chaque séquence a été comparée à l'ensemble des séquences de la banque. Tous les alignements significatifs recensés servent ensuite à générer une matrice avec une distance PAM de 250. Dans cette étude, Vogt et ses collaborateurs retrouvent également dans les cinq matrices les plus performantes, les BLOSUM 50 et 62 ainsi que la matrice de structure tertiaire de Johnson et Overington (1993) et une matrice de Benner et al. (1994) qui en fait est de nature très similaire à celle de Gonnet. La synthèse de toutes ses études montre que l'évaluation des matrices est très liée aux méthodes d'expertise utilisées et que leur usage est fortement corrélé aux types d'algorithme et de paramètrage utilisés. En conclusion, il apparaît tout de même que les matrices plutôt basées sur les comparaisons de séquences (comme celle de Gonnet et al., 1992 ; ou les BLOSUM, Henikoff et Henikoff, 1992) ou sur des structures tridimensionnelles (Johnson et Overington, 1993) semblent donner plus souvent de meilleurs résultats que celles basées principalement sur le modèle de Dayhoff, même réactualisé (Jones et al.,1992). |