Analyse bioinformatique des séquences

8. - La phylogénie

8.1 - Méthodes de reconstruction à partir de séquences [suite]

Les différentes méthodes de génération d'arbres
Méthode de parcimonie
Elle construit l'arbre le plus parcimonieux (le plus court), ayant le minimum de pas (de substitutions, insertions, deletions pour les séquences, ou de changements d'états pour les caractères discrets ).
Autrement dit, l'arbre le meilleur est celui qui a besoin du minimum de changements.
Problème : horloge moléculaire non constante, nombre d'arbres avec la même distance.
Méthode de vraisemblance
Cette méthode s'applique quand le taux de changements est très élevé (d'où une approche statistique). Les bases ou AA de toutes les séquences à chaque site sont considérées séparément et le log de la vraisemblance est calculé pour une topologie donnée en utilisant un modèle de probabilité. Ce log de la vraisemblance est cumulé sur tous les sites et la somme est maximisée pour estimer la longueur de branche de l'arbre. Cette procédure est répétée pour toutes les topologies possibles et la topologie ayant la plus haute vraisemblance est choisie.
Avantages : on estime les longueurs de branches. La méthode est consistante et permet les différences entre transitions et transversions.
Inconvénients : calcul très long pour construire l'arbre.

Méthode des distances
Les distances évolutives sont 2 à 2 définies. Elles doivent être indépendantes et sont considérées dans la méthode comme additives. Elles minimisent la somme des carrés des différences entre distances observées et calculées. On convertit donc les données de séquences en valeurs de distances arrangées en matrice.
La topologie de l'arbre est construite par une méthode de classification (comme UPGMA ou Neighbor joining (NJ)). La méthode donne une estimation de la distance pour chaque paire de longueurs de branche dans le chemin d'une séquence vers une autre.
Avantages : Facile à générer. Calculs rapides. Bons résultats pour des séquences de forte similitude.
Inconvénients : les séquences ne sont pas considérées en tant que telles. Les sites sont traités de manière équivalente. Pas applicable aux séquences très divergentes.


Fiabilité et robustesse des topologies
Comme cela a été dit, la précision des arbres doit toujours être statistiquement établie. Pour cela deux grandes méthodes sont utilisées : Bootstrap et Jacknife.
Dans les deux cas, on évalue par échantillonnage au hasard des données alignées (avec répétition), la robustesse des topologies. Une bonne vérification nécessite au moins 100 échantillonnages. On génère donc à partir d'un jeu de séquences alignées, un ensemble aléatoire de N jeux de séquences alignées. Des arbres sont calculés à partir des différentes méthodes et un arbre consensus est obtenu.


Ecran suivant

© Université de TOURS - GENET

Document modifié, le 21 novembre, 2006 8 janvier, 2008e="text/javascript">