Génétique des populations appliquée aux données moléculaires


Cours I Cours II Cours III Cours IV Cours V Cours VI
Introduction

Fréquences alléliques
Dérive génétique
Introduction à la
coalescence

Changements
démographiques

Populations
subdivisées

Sélection
Tests de neutralité
TP I TP II TP III TP IV TP V TP VI
 

Cours V

Population subdivisée - Modèles de migration

1. Populations subdivisées

Les populations naturelles ne peuvent pas toujours être considérées comme des populations panmictiques où les gamètes s'unissent au hasard. On a déjà vu un effet de l'écart à la panmixie qui est le fait que des individus apparentés s'unissent pour avoir des descendants: la consanguinité. Sa conséquence est que les deux gènes à l'intérieur d'un individu sont plus corrélés que deux gènes pris au hasard dans la population ou entre deux individus. On peut donc considérer qu'un premier niveau de subdivision est le compartiment formé par l'individu diploide qui contient deux copies d'un certain gène.

Dans les populations naturelles, les individus ne peuvent pas toujours s'unir aléatoirement sur l'ensemble de leur aire de répartition, du fait de contraintes géographique ou environnementales. Les populations seront donc presque toujours subdivisées géographiquement avec des individus qui s'unissent plus souvent avec des individus géographiquement proches qu'avec des individus éloignés. Les unités à l'intérieur desquelles les individus s'unissent le plus souvent sont appelées des dèmes. Ces dèmes peuvent être plus ou moins isolés les uns des autres, former des unités discrètes ou il peut y avoir une certaine continuité (génétique) entre dèmes voisins. Cependant, la dérive génétique va agir différemment dans chaque dème, et les dèmes vont progressivement se différencier les uns des autres.

Ces dèmes peuvent être eux-mêmes organisés en groupes dont les individus de différents s'unissent occasionnellement. On peut ainsi imaginer une espèce comme une poupée russe ayant différents degrés de subdivisions imbriqués les uns dans les autres.Donc pour la génétique des populations, une espèce est une grande population subdivisée.

Population hiérarchiquement subdivisée

Ces dèmes peuvent maintenir des contacts entre eux par l'échange de gènes véhiculés par des migrants. La migration va donc maintenir un certain niveau de cohérence génétique entre ces dèmes.

1.1 Effet Wahlund: Excès d'homozygotes dans les populations subdivisées

On n'a pas toujours conscience que la population que l'on étudie est subdivisée. Cependant la non prise en compte de cette subdivision a comme effet un écart à l'équilibre de Hardy-Weinberg qui se traduit par un excès du nombre d'homozygotes observés par rapport aux fréquences alléliques calculées.

Pour un locus à 2 allèles qui ont des fréquences p et (1-p), la proportion d'hétérozygotes HS observés sur l'ensemble des subdivisions peut être exprimé simplement comme l'hétérozygoite moyenne 

Si on a l'équilibre de Hardy-Weinberg à l'intérieur de chaque dème, alors HSk = 2 pk(1-pk) et on a donc

En se souvenant que var(X)=E(X2)-E(X)2, on a 

On voit donc que la fréquence observée des hétérozygotes dans l'ensemble des subdivisions est égale à la fréquence attendue sous l'équilibre de Hardy-Weiberg en considérant la fréquence moyenne p sur l'ensemble des d dèmes moins deux fois la variance des fréquences alléliques sur l'ensemble des dèmes. En ignorant la présence de subdivisions, on va observer un déficit d'hétérozygotes, et donc un excès d'homozygotes par rapport aux fréquencs alléliques observées. Cet effet Wahlund est une conséquence directe de la présence de subdivisions à l'intérieur d'une population, et il sera d'autant plus prononcé que les populations sont plus différenciées.

Conséquence: Lorsque l'on mesure un excès significatif  d'homozygotes, on peut légitimement se demander si la population étudiée n'est pas subdivisée ou amalgamé, c'est à dire qu'elle le fruit d'un rassemblement d'individus provenant de populations en équilibre de Hardy-Weinberg mais qui présentent des différences de fréquences alléliques.


2. Modèles de subdivisions avec migration

Nous allons maintenant passer en revue différents modèles de population subdivisée, dontles dèmes échangent des migrants.


Dans le modèle de populations (dèmes) arrangés en îles indépendantes, comme dans un archipel. On considère que les d dèmes peuvent échanger des migrants avec tous les autres dèmes, habituellement avec la même probabilité m/(d-1). Les dèmes sont donc interconnectés par des flux de gènes identiques. Ce modèle n'est guère vraisemblable dans les populations naturelles, mais il conduit à un traitement mathématique très simple. 

Modèle de 5 populations échangeant toutes une même 
proportion m/4 de migrants par générations

Le processus de migration va donc interférer avec le processus de dérive à l'intérieur des dèmes. Du fait des migrations, le processus de dérive génétique ne sera plus indépendant dans chaque population, et de nouveaux allèles pourront être introduits dans des dèmes où un autre allèle s'était fixé. Cela va aussi affecter la probabilité d'identité par ascendance. Ainsi la variation du coefficient de consanguinité  entre générations sera donnée par

A l'équilibre, où la perte d'allèle par dérive est compensée par l'introduction de nouveaux allèles par migration,  f (t+1)  = f (t) =f et

En résolvant pour f on arrive à 

ce qui montre que si m>0, l'homozygotie attendue à l'intérieur de chaque dème ne tend plus vers 1, comme dans une population de taille finie, et donc on ne va plus obligatoirement fixer d'allèles. 

On a vu précédemment que f pouvait être considéré comme un coefficient de corrélation. Dans notre cas, il exprime la corrélation entre 2 gènes tirés de la même subdivision (dème) par rapport à 2 gènes tirés au hasard dans la population totale. On note cette corrélation par FST, et donc l'espérance de la valeur de FST dans un modèle en île est donné par:

Le produit Nm est important car il représente le nombre absolu de migrants arrivant dans chaque dème par génération. En effet, m représente la probabilité pour un gène donné de migrer dans un dème, mais aussi la probabilité pour un gène donné qu'il soit un nouvel immigrant. A l'équilibre et en admettant que la taille de dèmes soit constante au cours du temps, le produit Nm représente donc bien la fraction attendue des gènes d'un dème qui sont de nouveaux immigrants.

L'homozygotie attendue à l'intérieur des dèmes diminue rapidement avec Nm

Nm

E( FST)
  0.25 (un migrant toutes les 4 générations) 0.50
  0.5 (un migrant toutes les 2 générations) 0.33
  1 (un migrant  par génération) 0.20
  2 (deux migrants par génération) 0.11

La valeur de Nm est importante pour savoir comment vont évoluer un ensemble de populations. Moran (1962) a montré que le taux de diminution de l'hétérozygotie dans une population structurée en île et comprenant d dèmes était à peu près comparable à celui d'une population non-structurée de taille Nd si Nm >> 1. Ce résultat ne concerne que la variation du taux d'hétérozygotie. On a abusivement interprété ce résultat en disant qu'une population subdivisée où Nm est > 1 se comportait comme une seule grande population panmictique. Cela est faux pour divers aspect de la diversité génétique. C'est rassurant car on peut donc parvenir à distinguer différentes structures génétique par l'observation de la diversité génétique à l'intérieur et entre les dèmes.

On utilise souvent la relation entre Nm et la valeur de FST à l'équilibre pour le modèle en île pour estimer Nm. En faisant cela, on fait bien sûr l'hypothèse que les dèmes que l'on observe sont bien arrangés en île et que nous sommes à l'équilibre migration-dérive.  Ainsi,

Chez l'homme, à l'échelle mondiale la valuer de FST est d'environ 0.1, ce qui donne une valeur de Nm de 2.25 . On a donc un degréd e différentiation entre les populations humaines qui est celle que l'on attendrait si toutes les populations étaient stationnaires et qu'elles échangeaient 2.25 migrants par génération en moyenne. Nous verrons plus tard comment on estime ces valeurs de FST .

L'effectif efficace d'une population subdivisée est en fait plus grande que celui d'une population panmictique (Whitlock et Barton 1996), et elle est dépend du degré de différentiation des dèmes comme

 

Ce résultat est dû au fait que l'effectif de chaque dème est fixe, et donc que les gènes d'individus d'un certain dème vont obligatoirement avoir des représentants à la génération suivante, et vont donc contribuer à diminuer la variance du nombre de descendants par rapport à une population panmictique. On s'attendra donc à maintenir plus de diversité génétique dans une population subdivisée que dans une population panmictique de même taille de recensement.


Kimura (1953) a introduit des modèles de migration entre dèmes plus réalistes que le modèle en île. Il a en effet voulu tenir compte du fait que l'on échangeait plutôt des migrants entre dèmes géographiquement proches les uns des autres, et pas ou rarement entre dèmes éloignés. C'est donc un modèle spatialement structué. Kimura a introduit ces modèles par analogie avec les dalles permettant de circuler dans les jardins japonais. Il a donc qualifé ces modèles en anglais de steping-stone models.

Migration en treillis en 1 dimension

Dans ce cas, les migrations se font selon un axe principal, le nombre de populations pouvant être arbitraire. Un dème va échanger des gènes avec ses deux dèmes voisins à un taux m/2.

Migration en treillis en 2 dimensions

Dans ce cas, les dèmes sont arrangées selon deux axes, et un dème échangera des gènes avec ses 4 plus proches voisins à un taux m/4.

Pour éviter des effets de bord, Maruyama (1971) a introduit un modèle en une dimension mais circulaire, et un modèle en deux dimension où les dèmes sont à la surface d'un torre.


Dans ce modèle, les taux de migrations entre les dèmes sont complétements arbitraires et pas forcément symétriques. les modèles en îles et en treillis sont bien sûr des cas particuliers de ces modèles matriciels.

Les taux de migrations sont ici symétriques et proportionnels à l'épaisseur des flèches

D'une manière générale, la variabilité génétique sera plus importante dans une population avec des taux de migrations très variables entre dèmes, car il y aura des dèmes très isolés où la dérive génétique sera forte et conduira rapidment à l'élimination de certains allèles.


Les modèles de migration en treillis sont des modèles discrets d'isolement par la distance, où l'on s'attend à ce que les dèmes soient d'autant plus proches génétiquement qu'ils sont proches géographiquement. Malécot (1950) a introduit des modèles où les dèmes sont situés dans un espace continu. Les individus migrent dans un certain dème situé à une certaine distance avec une probabilité inversément proportionnelles à la distance géographique séparant ces dèmes. On tient donc compte de la distribution des distances entre le lieu de naissance des individus et de leurs descendants. D'une manière générale, que ce soit dans un espace discret ou continu, la corrélation attendue entre gènes décroit exponentiellement avec la distance.


Les modèles de méta-populations ont été introduits pour mieux coller à la réalité, et tenir compte de la nature dynamique des populations et des dèmes. Il y a en effet beaucoup de situations où les dèmes ont des tailles variables et peuvent même disparaître temprairement avant d'être crées à nouveau par de nouveaux migrants venant d'une population voisine et réoccupant le nouveau territoire. Ces propriétés sont assez typiques de petites populations, et ont donc d'importantes applications en génétique de la conservation.

Cycle d'extinction et de recolonisation dans un modèle de métapopulations

  1. Taille de dèmes variables et taux de migration arbitraires

  1. Un dème disparaît (extinction)

  1. Un processus de recolonisation à partir d'un autre dème reconstitue ce dème

  1. Le nouveau dème reprend des échanges avec les autres dèmes

D'une manière générale, des dèmes de tailles inégales sont plus différenciés que des dèmes de tailles sensiblement équivalentes, car la dérive génétique sera surtout plus forte dans les petites populations. Les extinctions de dèmes contribuent aussi à augmenter la variabilité globale de la population, en éliminant certains allèles. Enfin, les recolonisations sont souvent accompagnées d'effets fondateurs, qui entraîne de grandes perturbation de fréquences alléliques, et qui vont donc aussi contribuer à l'augmentation de la variabilité génétique entre dèmes par rapport à un ensemble de populations arrangées en îles.

 Whitlock et McCauley (1990) ont montré que la différentiation génétique des dèmes sera plus grande que celle d'une population arrangée en île si

k est le nombre moyen d'individus qui colonisent de nouveaux dèmes, N est la taille des populations qui subsistent, m est le taux de migration entre dèmes et f est la probabilité que deux gènes colonisateurs viennent du même dème source. Dans la plupart des métapopulations, cette relation est vérifiée. Si le degré de différentiation entre dèmes est plus faible que dans le cas d'une population en île cela implique que la taille efficace d'une telle population sera plus faible que dans le cas en île (voir Hedrick et Gilpin 1997 pour voir l'influence de différents facteurs sur la taille efficace, comme le nombre de subdivisions, les taux de colonisation et d'extinction. la capacité de soutien ou le nombre de fondateurs).


3. Processus de coalescence dans les population subdivisées

Subdivisions sans migration: Fission de populations

Les populations peuvent être structurées de part leur histoire. Des fissions successives de populations vont créer de nouvelles populations qui vont se différencier progressivement les unes des autres. A partir du calcul de distances génétiques entre populations, on va essayer de reconstituer ce processus de fission (voir cours d'Alicia sanchez-Mazas). Il faut toutefois noter qu'il est difficile, voire impossible, de faire la différence entre une série de fissions de populations et une population subdivisée présentant différents taux de migrations entre dèmes (Felsenstein 1982).

Admettons cependant que 4 populations se sont progressivement différenciées à partir d'une population ancestrale, comme montré ci-dessus. On va s'intéresser aux évènements de coalescences se produisant entre les différents gènes provenant de populations identiques ou différentes. Selon la taille des populations et leur temps de séparation, il se peut que la plupart des évènements de coalescence ne se produisent pas dans les populations les plus dérivées mais dans des population ancestrales. Ainsi, des gènes de différentes populations pourront très bien avoir des temps de coalescence plus petit que des gènes de la même population. Tajima (1983) a même calculé que l'on ait 95% de chance pour que les gènes de la même population coalescent avant deux gènes de populations différentes, il fallait que ces populations aient été séparées par environ 6N générations.

Conséquence: Lorsque l'on étudie la diversité moléculaire des populations d'une espèce, on ne verra à peu près jamais une correspondance parfaite entre la localisation géographique des gènes et leur position sur une phylogénie.

Phylogénie de 56 haplotypes de restriction de l'ADN mitochondrial humain (Excoffier et al. 1992)

Cependant il existe quand même un certain degré de cohérence géographique entre la répartition spatiale des gènes et leur position phylogénétique. Ceci est à la base des de la phylogéographie (Avise et al. 1987) qui se réfère à l'étude des processus gouvernant la distribution géographique des lignages généalogiques au niveau intra et inter spécifique. C'est véritablement l'étude de John Avise en 1979 sur le polymorphisme de l'ADN mitochondrial des gaufres de poche qui a lancé cette discipline.

Phylogénie de 87 gaufres de poche (pocket gophers) d'àprès Avise et al. (1979). Les diférents haplotypes mitochondriaux (représentés par des lettres sont reliés les uns aux autres par un réseau parcimonieux.


Subdivisions avec migration

Lorsqu'il y a des migrations entre populations qui ont eu une histoire de fission, on s'attend à encore moins de cohérence entre localisation géographqie des gènes et relations généalogiques.

Généalogie de 
gènes dans des populations 
échangeant des 
migrants et ayant 
une histoire de 
fission à partir 
de populations 
ancestrales.


5. Estimation du degré de subdivision

5.1 Statistiques F (F-statistics)

On estime souvent le degré de subdivision d'une population au moyen de statistiques F (F-statistics) définies par Wright (1943). Ces statistiques correspondent aux corrélations de gènes pris à un certain niveau de subdivision par rapport à des gènes pris à un niveau supérieur de subdivision.  On a a déjà vu que le coefficient de consanguinité f =FIS pouvait être exprimé comme la corrélation de deux gènes à l'intérieur d'un individu par rapport à deux gènes pris au hasard dans une subdivision (dans un dème). On peut définir des corrélations similaires pour des niveaux de subdivision supérieurs. On défini ainsi FST comme la corrélation de deux gènes pris dans une subdivision par rapport à deux gènes pris au hasard dans la population totale, et  FIT comme la corrélation de deux gènes d'un individu par rapport à deux gènes pris au hasard dans la population totale. 

On avait vu que la proportion observée d'hétérozygotes à l'intérieur d'une subdivision H est une fonction de la probabilité que les deux gènes d'un individu sont identiques par ascendance, soit 

Bien que cette relation avait été dérivée dans le cas où les 2 gènes se trouvaient dans le même individu, celle-ci peut s'étendre plus généralement à deux gènes pris au hasard à n'importe quel niveau de subdivision, et par exemple à deux gènes pris au hasard dans un des dèmes de la population.  Donc par extension, on a la relation

  

HS est la proportion observée des hétérozygotes dans l'ensemble des subdivisions que l'on a déjà vue plus haut. S'il existe d subdivisions, HS peut aussi être considérée comme la probabilité moyenne d'être hétérozygote sur l'ensemble des d subdivisions. En remplaçant HS par la valeur trouvée par Wahlund on obtient la relation classique

 

qui montre que la statistique FST est également la variance observée des fréquences alléliques sur la variance attendue. 

Si l'on considère un modèle où l'on part d'une seule population qui se subdivise instantanément en plusieurs dèmes tous de même taille et possédant tous les même fréquences alléliques, la variance de p sera donc nulle au dèpart du processus. Ensuite, sos l'effet de la dérive génétique, les dèmes vont peu à peu se différencier les uns des autres pour leurs fréquences alléliques. En l'absence de migrations et de mutation, un allèle ou l'autre va aller se fixer dans chaque population, et la variance de p entre les popualtion sera égale à un maximum. Dans ce cas la valeur de FST sera égale à 1. On voit donc que FST traduit en quelque sorte le degré de différentiation des dèmes dans le processus de fixation des fréquences alléliques sous l'effet de la dérive génétique. C'est pourquoi ces statistiques F sont parfois appelées des indices de fixation (fixation indexes). 

D'une manière générale, les statistiques F sont reliées les unes aux autres par la relation (p.ex. Wright 1969)

La barre sur le FIS indique qu'il s'agit du coefficient de consanguinité moyen calculé sur l'ensemble des subdivisions. 

Nei (1977) a montré comment calculer les statistiques F pour un nombre arbitraire d'allèles, car elles peuvent être exprimées simplement en fonction des hétérozygoties observées et attendues comme 

avec Ho étant l'hétérozygotie observée dépendant des fréquences Pkii des homozygotes AiAi dans les subdivisions

HS et HT  étant des hétérozygoties attendues ne dépendant pas des fréquences génotypiques, mais uniquement des fréquences alléliques dans les subdivisions pki

et bien sûr


5.2 Estimation des corrélations par l'analyse de variance

Cockerham (1969, 1973) a montré que les corrélations entre gènes similaires aux statistiques F pouvaient être estimées par une analyse de variance des fréquences alléliques. Une telle analyse consiste à partitionner la variabilité génétique totale en divers composants de variances qui expriment la proportion de la variance totale attribués à différents niveaux de subdivision de population, soit 

La variance totale étant égale à la somme des composant de variance

Source de variabilité

 
d.l.

 
Somme des carrés


Carrés moyens

Espèrance des carrés moyens

Entre dèmes

d-1

Entre individus à l'intérieur des dèmes

n-d

Entre gènes à l'intérieur des individus

n

Total

2n-1

 

 

Cockerham a aussi monté que les statistiques F pouvaient être estimées par les relations

Ces estimateurs diffèrent quelque peu des estimateur de Nei à partir des hétérozygoties observées et attendues, et sont relativement moins biaisés, surtout lorsque le nombre de dèmes est la taille des échantillons est petit.

Nous avons ensuite montré (Excoffier et al. 1992) comment cette analyse de variance des fréquences alléliques pouvait être étendue pour incorporer la diversité moléculaire des gènes. On procède ainsi à une analyse de la variance moléculaire des échantillons (Analysis of MOlecular VAriance: AMOVA).


5. Mesures d'identité par ascendance et temps de coalescence

5.1 Différences entre statistiques F estimées par la méthode de Nei et par la méthode de Cockerham

La méthode de Nei par la mesure des hétérozygoties obsevées et attendues et celle de Cockerham par l'analyse de variance fournissent des estimateurs légèrement différents. Sans trop rentrer dans les détails, cela tient au fait que les deux méthodes n'estiment pas exactement les mêmes paramétres au niveau de la population.

Si l'on définit  

alors les corrélations des gènes calculées par l'analyse de variance de Cockerham sont données comme

avec r0 = FIS , r1 = FIT, et r2 = FST .

Pour les statistiques F estimées par la méthode de Nei on a les relations

où les probabilités d'identités suivantes sont définies:

5.2 Expression des statistiques F en fonction des temps de coalescence moyen des gènes

Montgomery Slatkin a montré la relation entre les probabilité d'identité Q définies plus haut et les temps de coalescence (Slatkin 1991; Slatkin et Voelm, 1991). Deux gènes seront identiques si, depuis leur ancêtre commun le plus récent (MRCA), il n'y a pas eu de mutations sur aucun des 2 lignages. Supposons que cet ancêtre commun vivait il y a t générations. Dès lors, si l'on admet encore que les mutations se produisent à un rythme u par génération, la probabilité qu'aucune mutation n'est survenue pendant les 2 t générations de séparation des deux gènes est donnée par

Mais bien sûr on ne connait pas ce temps de coalescence, si bien que la probabilité non conditionnelle d'identité et obtenu en considérant tous les temps de coalescence possibles:

P(t) est la probabilité que deux gènes coalescent au temps t et qui suit une loi géométrique comme nous l'avons vu précédemement. Si u est petit, on a la relation approximative

est simplement le temps de coalescence moyen de deux gènes.

On peut utiliser cette relation pour reformuler n'importe quelle statistique F en fonction de temps de coalescences moyens. Ainsi, la statistique FST estimée par l'analyse de variance devient

et sont respectivement les temps de coalescence moyens de deux gènes tirés du même dème et deux gènes tirés de dèmes différents.

Ces reformulations en termes de temps de coalescence moyens permettent d'obtenir facilement les valeurs attendues des statistiques F dans différents modèles de subdivision (Slatkin 1991; Rousset 1996, 1997, 2000).

Exemple: FST dans un modèle de pure fission avec tailles de population constantes

Slatkin (1995) a considéré un modèle de populations subdivisées sans migrations mais avec des fissions historiques. On supose qu'il y a T générations, un ensemble de dèmes ont divergés les uns des autres et sont restés séparés depuis cette période. Il suffit de trouver les expressions pour et pour ce modèle démographique. On a déjà vu que = 2N pour les populations diploides et = N pour les populations haploides de taille N

Maintenant, considérons des gènes de dèmes différents. On sait que les dèmes sont restés séparés pendant T générations. Donc il n'y a pas pu y avoir de coalescence pendant cette période. Ensuite, les lignages se sont tous trouvés dans la population ancestrale de taille N. A partir de cet instant, le temps moyen de coalescence de 2 lignages était à nouveau de 2N générations (pour des population diploides. Donc, = T + 2N, si bien que 

Dans ce cas, on peut estimer le temps de divergence entre les dèmes à partir du FST mesuré comme

On notera que ce temps est relatif à la taille des dèmes et de la population ancestrale, et qu'il ne dépend pas du nomre de dèmes dans la subdivision. On peut donc utiliser cet estimateur comme une mesure de distance génétique entre 2 populations. 


TP Cours V:

Ce TP est accessible sur gmdp_tp5.htm


Laurent Excoffier : Dernier update : mardi, 30 mai 2006 11:18