Journées Evolution en Biologie

Journée Evolution en biologie organisée conjointement par le groupe thématique MAS de la SMAI
et la SFdS

Lundi 7 avril 2008 Amphithéâtre Hermite Institut Henri Poincaré (IHP)

Le groupe thématique MAS de la SMAI et la SFdS organisent conjointement une journée sur le thème des modèles d'évolution en biologie. Le but de cette journée est de confronter les approches probabilistes et statistiques sur ce thème. Aussi, deux exposés de nature plutôt probabiliste et deux exposés de nature plutôt statistique sont proposés. Chaque exposé d'environ une heure sera suivi d'une discussion.

L'entrée est libre.

La diversité génétique d’une population augmente par mutation, recombinaison ou échange de gènes. Elle diminue lorsqu’un variant
(ou haplotype) disparaît de la population, au hasard des événements de naissance et de mort (dérive génétique), par sélection contre ce variant,
ou tout simplement par migration. Dans les modèles les plus simples d’évolution de la biodiversité, on suppose que la diversité n’augmente que
par mutation, et ne diminue que par dérive. On cherche alors à caractériser le polymorphisme prédit par cette hypothèse nulle (évolution neutre).
Si l’on dispose de n séquences ADN appartenant à des individus distincts de la population, on se sert habituellement des deux quantités suivantes :
le nombre Sn de sites polymorphes (sites auquel deux séquences au moins diffèrent), et le nombre An d’haplotypes distincts
(séquences différant à au moins un site). En général on suppose que les mutations surviennent à taux constant µ (le long des lignées germinales),
et ne peuvent affecter qu’une seule fois un même site sur la séquence. Dans le cas des grandes populations de taille constante, les deux quantités
Sn et An croissent comme µ log n avec la taille n de l’échantillon. Dans le cas des populations branchantes, Sn et An croissent linéairement avec n,
à des taux qui nous spécifions. De plus, nous étudions le spectre de fréquence de l’échantillon, c’est-à-dire les nombres de sites
polymorphes/d’haplotypes portés par k individus de l’échantillon exactement. Ces quantités aussi croissent linéairement avec la taille de l’échantillon,
et nous obtenons des formules explicites simples pour les fréquences des mutations et les fréquences des haplotypes.

Les données génétiques obtenues sur des échantillons prélevés sur des populations naturelles contiennent des informations
sur leur histoire évolutive. Les méthodes d'inférence statistique permettent d'extraire une partie de cette information, mais leur complexité
les limite généralement à des scénarios évolutifs simplifiés impliquant un nombre très limité de populations. En excluant les échanges de
gènes entre populations, il est possible d'envisager l'inférence de paramètres démo-historiques sur des scénarios beaucoup plus complexes
affectant un nombre quelconque de populations et dont l'histoire inclut des événements de divergence, d'admixture et de variation de taille efficace.
Deux approches seront évoquées dans ce but, l'une reposant sur l'estimation de la vraisemblance par échantillonnage pondéré des généalogies
des gènes échantillonnés et l'autre sur un critère de distance entre statistiques résumant les données génétiques observées et simulées dans
le cadre des Approximate Bayesian Computations.

Maximum likelihood inferred topologies arecommonly used to draw conclusions in evolutionary biology and molecular evolution. These computations are
based amongst others upon on the observed nucleotides and as such is subject to sampling error. In this talk we critically review classical measures
of the robustness of the inferred tree. In particular, we present some simulations to clarify interest and drawback of classical bootstrap approach. Then
we extend resamling tools to characterize influential sites. Finally, using concentration measure tools, we also propose an original method to bound
the variations of the computed likelihood around its true value and the probability that a phylogeny has a better likelihood than another one "just by chance".
It is a joint work with Mahendra Mariadassou.

The model plant species Arabidopsis thaliana is successful at colonizing land that has recently undergone human-mediated disturbance. To investigate
the prehistoric spread of A. thaliana, we applied approximate Bayesian computation and explicit spatial modeling to 76 European accessions sequenced at 876 nuclear loci.
We find evidence that a major migration wave occurred from east to west, affecting most of the sampled individuals. The longitudinal gradient appears to result from the plant
having spread in Europe from the east ~10,000 years ago, with a rate of westward spread of ~0.9 km/yr. This wave-of-advance model is consistent with a natural colonization
from an eastern glacial refugium that overwhelmed ancient western lineages. However, the speed and time frame of this model also suggest that the migration of A. thaliana into
Europe may have accompanied the spread of agriculture during the Neolithic transition.