0 Preface

笔者从统计学习转入生物信息学习中,种群遗传学(Population Genetics)是笔者最开始感兴趣的一个大方向。为此写下读书笔记,以供及时翻阅,以防遗忘。

种群遗传学包含观察(observation)、实验(experiment)和理论(theory)三个部分,本书着重于结合数学的理论部分。


1 Historical Background

1.1 Biometricians, Saltationists and Mendelians

种群遗传学理论最初由费舍尔Fisher、霍尔丹Haldane和怀特Wright提出,其目的是在孟德尔遗传机制的基础上建立一个进化框架。人们对进化变化的方式存在分歧,达尔文Darwin认为进化是渐近连续(gradual and incremental)的,而另一些人认为进化是跳跃的。从这两个观点出发形成了两种进化学派。

对于达尔文的自然选择进化论,高尔顿几乎通过纯粹的理论推理得到相似的结论。与达尔文进化理论相反的是混合假设(blending hypothesis:后代的特征是父母特征的混合,所以在随机交配的情况下,种群中任何特征的变异性都将在每一代中减半,经过几代后,种群中的个体特征趋于统一,而自然选择自然无法在没有变异的种群中产生影响),显然在现实中我们没有观察到个体特征的高度统一,因此混合假设是不完整的。想要解释观察到的变异性,必须假设存在其他因素。这也推动了高尔顿量化渐近进化的过程,高尔顿提出了相关性(correlation)和回归(regression),后续的生物工作者将这些方法应用到研究生物进化的过程中,这些工作者被称为生物统计学家(biometricians)。

最后孟德尔学说被重新发现,学界关于孟德尔学说和达尔文自然选择学说的观点产生了激烈的争论,但其实孟德尔遗传机制与达尔文主义是可调和的。


1.2 The Hardy-Weinberg Law

考虑一个随机交配的雌雄同体的种群的一个特定的基因位点上的两个等位基因$A_1$和$A_2$其种群规模足够大以至于基因型频率的变化是确定性的;假设每一代有三种基因型$A_1A_1,A_1A_2,A_2A_2$,其占比分别为$X,2Y,Z$,同时少部分的突变被忽略并且基因型之间没有适配性差异(指不同基因型在生存和繁殖能力上的差异)。并且根据孟德尔遗传定律能够得知后代的基因型占比,后代基因型$A_1A_1$的频率$X’$为 $X^{2}+\frac{1}{2}\times2\times(X)(2Y)+\frac{1}{4}(2Y)(2Y)=(X+Y)^{2}$,后代基因型$A_1A_2$的频率$2Y’$为$\frac{1}{2}\times2(X)(2Y)+2XZ+\frac{1}{2}(2Y)(2Y)+\frac{1}{2}\times2(2Y)(Z)=2XY+2XZ+2YY+2YZ=2(X+Y)(Y+Z)$,后代基因型$A_2A_2$的频率$Z’=(Z+Y)^2$。

在接下来的一代中同样有$X{‘’}=(X{‘}+Y{‘})^2=(X+Y)^2=X{‘}$(第二个等号的推导过程为将表达式简单的代入),同理有$Y{‘’}=Y{‘},Z{‘’}=Z{‘}$意味着基因型频率在代与代之间是不变的。据此,能够得出$(Y^{‘})^2=X^{‘}Z^{‘}$,如果基因型频率在各代之间的恒定在第一代中也存在,那么就有$Y^2=XZ$,服从前式的种群可以称为服从哈温平衡定律。可以看出在该假设下,各代之间的基因型频率以及等位基因频率都是保持不变的。有了如此的两个约束条件(1、前式;2、三种基因型频率和为1),哈温平衡即可使用一个独立的变量来表示,如下给出流行的哈温平衡的表达:

*Hardy-Weinberg Theorem:在所述假设下,经过一代随机交配后将达到稳定的基因型频率,记等位基因$A_1$频率为$x$,则有$X=x^2,Y=2x(1-x),Z=(1-x)^2$。并且这一频率在所有世代中都保持稳定。

这定律也表明在孟德尔遗传定律的支持下,变异趋向稳定。这也揭示了孟德尔遗传定律与达尔文进化论的可调和性,R.A. Fisher于1918年系统的讨论了这个问题。


1.3 The Correlation Between Relatives

假设没有环境因素的影响,对于位点$A$处完全由等位基因$A_1,A_2$决定的一个特征,记基因型为$A_1A_1$的个体的==测量值(表示性状的量化,并非数量)==为$m_{11}$同理有$m_{12},m_{22}$。在哈温平衡的表达下,很容易得到测量值的均值以及方差$\bar{m},\sigma^2$。根据父(母)亲的基因型可以得出后代子(女)的基因型出现的概率,例如父亲有$x^2$的概率基因型为$A_1A_1$,其子的基因型为$A_1A_1$的概率则为$x^3$(从母亲处得到$A_1$的概率为$x$),其子基因型为$A_1A_2$的概率为$x^2(1-x)$,并且不可能基因型为$A_2A_2$,同理能够得到父子基因型关联表。

父子基因型关联表

根据关联表可以得出父子之间测量值的协方差极其相关系数,经过推导(通过构造加性模型对测量值进行拟合,以加权最小二乘法得到两个等位基因的对形状的平均效应估计值)。

得出$\sigma^2$可以被分解为$\sigma_{A}^2,\sigma_{D}^2$的和,分别表示加性遗传方差以及显性方差。其中加性遗传方差是形状总方差中由等位基因的平均效应解释的部分(表示在一个特定环境下等位基因替代对形状的影响);显性方差是等位基因之间的相互作用效应,当$x=0/1$或$m_{12}=\frac{1}{2}(m_{11}+m_{22})$时该条件表示不存在显性效应,显性效应:描述了在杂合子中一个等位基因对另一个基因的掩盖作用)显性方差为0。并且父子之间形状测量值的相关性是加性遗传方差与总方差之比的一半,即$corr(father,son)=\frac{1}{2}\frac{\sigma_A^2}{\sigma^2}=\frac{1}{2}p^2$,性状测量值的相关系数一般来说都是非负的,只有当杂合子性状超出两个纯合子性状的测量值的范围时相关系数才为0。类似的能够计算其他亲缘关系的性状相关系数。


1.4 Evolution

1.4.1 The Determinisic Theory

达尔文进化论的两个基石是变异(Variation)自然选择(Natural Selection)突变(Mutation)是变异的持续来源,突变产生的不同基因型通常具有不同的适应度,自然选择就会发生,核心则是量化这一过程。

假设:虽然个体的适应度(Fitness)由整个基因构成的一种复杂的方式来决定,并且在不同环境中有所不同,但仍然初步假设适应度只依赖于某个单一基因座的基因型,或者说可以通过“加总”单一基因型对适应度的贡献来得出。

手稿1:世代之间等位基因频率递推式(结合适应度)

在特定位点处,记基因型$A_1A_1$的适应度为$w_{11}$,同理有适应度$w_{12},w_{22}$。通过考虑每个个体的适应度以及所有可能的交配方式,得出下一代频率的递推关系式。

推导过程中可知下一代的等位基因频率取决于适应度$w_{ij}$之间的比率(相对值)。因此可以通过控制这一相对值,使得等位基因频率在每一世代(Generation)中保持不变。

1、并且在一般情况下,我们可以改变适应度的表达方式,使得表达更加方便。

手稿2:改变适应度表达后的等位基因频率变化过程

给出一般性的$s$值的情况下,在$h=1,h=\frac{1}{2}$时可以给出不同等位基因频率跨度下的所需时间(世代)的代表值。可知所需时间非常长,在遗传过程中我们通常能观察到遗传多态性,这种数学表达也刻画了优势基因替代劣势基因的微观动态过程。

2、当杂合子的适应度都大于两个纯合子的适应度时,可以采用另一种方式表达适应度。

记$w_{11},w_{12},w_{22}$分别为$1-s_1,1,1-s_2$,其中$s_1,s_2>0$,此时下一代等位基因频率可以表示为:$x’-x=x(1-x)[s_2-x(s_1-s_2)]$,可得等位基因频率的稳定值$x^*=\frac{s_2}{s_1+s_2}=\frac{w_{22}-w_{12}}{w_{11}+w_{22}-2w_{12}}$。即等位基因频率的变化都沿着靠近该稳定值的方向。而当$s_1,s_2<0$时,该稳定值的表达式仍然适用,但是此时等位基因频率发生改变的方向改为背离稳定值的方向,因此没有讨论的必要。据此可知等位基因频率趋于稳定的充要条件是杂合子的适应度大于两个纯合子的适应度。


接下来考虑突变的影响,记$A_1$突变为$A_2$的比率为$u$,$A_2$突变为$A_1$的比率为$v$,显然在不存在自然选择时下一世代的等位基因频率满足$x’=x(1-u)+(1-x)v$,同样能够得到在这个情况下的等位基因频率的平衡点$x^*=v/(u+v)$。


最后考虑自然选择和突变都存在的情况,主要考虑选择差异量级为$10^{-2}$,而突变率的量级在$10^{-5}$或$10^{-6}$。

1、杂合子存在选择优势时(前文2),在这种情况下,由于量级差距过大,等位基因频率的新的平衡点可以看作不存在突变的情况下的平衡点。

2、当$A_1A_1$为最优适应基因型,$A_2A_2$为最劣适应基因型时,正如手稿2的处理方法,此时$s>sh>0$,此时虽然等位基因$A_1$作为优势基因,其频率也不再一味地向1移动,而是会在靠近频率为1的点处达到平衡值(此时突变在平衡点时起到了保持多态性的作用)。