全基因组选择育种技术及在奶牛育种中应用进展
2016-05-26 12:41:50 范翌鹏1 孙东晓1* 张勤1 张胜利1 张沅1 刘林2 本站 次阅读

(1.中国农业大学动物科技学院,北京,100193; 2.北京奶牛中心. 北京. 100085)

摘要:全基因组选择是指基于基因组育种值(GEBV)的选择方法,指通过检测覆盖全基因组的分子标记,利用基因组水平的遗传信息对个体进行遗传评估,以期获得更高的育种值估计准确度。由于可显著缩短世代间隔,全基因组选择作为一种育种新技术在奶牛育种中具有广阔的应用前景,目前已经成为各国的研究热点。不同国家的试验结果表明,在奶牛育种工作,基于GEBV的遗传评估可靠性在20-67%之间,如果代替常规后裔测定体系,可节省92%的育种成本。本文综述了全基因组选择的基本原理及其在各国奶牛育种中的应用现状和所面临的问题。

关键词:全基因组选择,奶牛育种

 

全基因组选择(Genomic Selection,GS),即全基因组范围的标记辅助选择(Marker Assisted Selection, MAS),指通过检测覆盖全基因组的分子标记,利用基因组水平的遗传信息对个体进行遗传评估,以期获得更高的育种值估计准确度。研究已表明,标记辅助选择可提高奶牛育种遗传进展[2][3],但是在目前奶牛育种工作中却无法大规模推广应用标记辅助选择。因为奶牛的生产性状和健康性状均受大量基因座位共同影响,通过有限数量的已知标记无法大幅度加快遗传进展;其次,通过精细定位策略鉴定主效基因需花费大量人力物力和时间;而且利用标记信息估计育种值的计算方法也很复杂。全基因组选择基于基因组育种值(Genomic Estimated Breeding Value, GEBV)进行选择,其实施包括两个步骤:首先在参考群体中使用基因型数据和表型数据估计每个染色体片段的效应;然后在候选群体中使用个体基因型数据估计基因组育种值(genomic breeding value,GEBV)[4],模拟研究证明,仅仅通过标记预测育种值的准确性可以达到0.85(指真实育种值与估计育种值之间的相关,而可靠性则指其平方)。如果在犊牛刚出生时即可达到如此高的准确性,对奶牛育种工作则具有深远意义。模拟研究表明:对于一头刚出生的公犊牛而言,如果其GEBV的估计准确性可以达到经过后裔测定估计得到的EBV准确性同样高的程度,相当于可以利用2岁公牛代替5岁乃至更老的公牛作为种用,遗传进展率将提高一倍。与奶牛常规后裔测定体系相比,可节省92%的育种成本[1]。

1.不同国家的全基因组选择实施情况及GEBV估计准确性

 1.1澳大利亚的研究结果

在澳大利亚后裔测定体系中选择出生于1998~2003年的共计798头荷斯坦公牛(Genetics Australia测定),利用Bovine SNP50芯片对56,947个SNP标记进行了个体基因型测定。使用两种方法计算GEBV:第一种方法为Meuwissen等提出的BLUP方法[4],假设所有的SNP效应均来自于同一个正态总体,即假设所有的SNP效应很小,且σgi2相同。第二种方法为BayesA方法,认为影响一个性状的大部分SNP标记具有微小的独立效应,但一小部分SNPs具有相对较大效应(即不同SNP的效应不同)。计算结果表明,使用GEBV预测TBV的可靠性高于利用系谱指数对公牛进行预测的可靠性,而后者正是目前后裔测定体系中青年公牛育种值预测的主要方法(表1)

表1 公牛出生时不同育种计划中育种值估计的可靠性

性状参考群体中表型记录条数SNP数目EBV可靠性GEBV可靠性(BLUP)GEBV可靠性(BayesA)

ASI6373,8890.380.440.48

APR6353,4140.350.530.55

乳蛋白量6374,0550.280.450.48

乳蛋白率6374,3690.200.290.36

繁殖性状3323,0900.160.180.14


1.2 新西兰的研究结果      此外,繁殖性能的GEBV可靠性远低于生产性状GEBV。可能是由于繁殖性能为低遗传力性状,需要更多的表型记录才能预测得到更准确的GEBV。在澳大利亚的研究中,相对于其他性状而言,只有少部分公牛(332头)具有繁殖性能记录,因此降低了数据分析的统计效力。除繁殖性能以外,其他性状通过Bayes方法得到的GEBV可靠性比BLUP方法提高了2%~7%。

目前,澳大利亚的全基因组选择工作主要由澳大利亚畜禽合作研究中心执行的,其参考群公牛规模已经达到了2000头,并于2010年正式发布了GEBV。

新西兰家畜遗传改良公司(LIC)于2008年公布新西兰奶牛GEBV估计的可靠性[5]。以4,500头左右后裔测定公牛为参考群体,公牛规模及其出生年度范围均远高于澳大利亚群体。利用Bovine SNP50芯片对所有公牛进行基因分型。采用BLUP, BayesA, BayesB(考虑了某些SNP效应为0的情况)[4],线性角回归[6]和贝叶斯回归[7]等方法估计GEBV并进行比较。此外,在GEBV中还加入了系谱指数(加性育种值)信息。LIC于2009年8月开始正式公布GEBV,每年评估两次。

对无表型数据的青年公牛产量性状、体重、繁殖性能、体细胞数和长寿性进行估计,其GEBV的估计可靠性在50~67%之间;而采用系谱指数的估计育种值可靠性仅为34%。普遍高于澳大利亚所得的数据结果,其原因可能是由于新西兰采用的参考群体规模远高于澳大利亚。通过贝叶斯方法得到的GEBV估计可靠性比BLUP方法高2~3%,而回归方法得到的GEBV可靠性较低。

LIC已经于2009年8月开始正式公布GEBV,每年评估两次。

1.3美国的研究结果

美国组建的参考群体包括3,576头荷斯坦公牛,共计38,416个有效SNP用于预测方程,SNP检测同样采用Bovine SNP50芯片。预测方法与Meuwissen等提出的BLUP方法相似,不同之处为假定所有标记效应符合正态分布;另外也采用贝叶斯方法,考虑到有些基因具有较大效应,因此在分布中加入了一个较大的尾(与1.2中的BayesA方法相似)。与澳大利亚和新西兰研究结果一致的是,也将基于系谱的多基因效应或父母育种值平均值整合到预测方程中,拟合选择指数得到GEBV。

针对所有性状,GEBV的平均估计可靠性达到50%,而仅仅利用系谱指数对青年公牛进行预测的平均可靠性仅为27%。BLUP方法仅比贝叶斯方法的可靠性低1%,这一结果与澳新两国的结果一致。

目前,美国和加拿大的参考群公牛规模合计已达到18000头以上(美国9300头,加拿大8800头),并分别于2009年1月、8月在官方正式颁布的公牛育种值中包含基因组育种值,称为GPTA(Genomic Predicted Transmitting Ability);

1.4 荷兰的研究结果

荷兰的基因组选择计划试验由CRV公司组织执行,其参考群体包括了1,583头公牛,有46,529条有效SNP数据用于估计GEBV。在计算GEBV可靠性时,挑选出生于1999~2003年间的429头公牛,随机抽取其中5%的公牛计算GEBV,然后与后裔测定EBV进行相关分析。随机抽取过程重复20次,使得每头公牛均有一次机会作为参考公牛。SNP效应的计算方法参考Meuwissen和Goddard(2004)提出的吉布斯抽样[8],只是用SNP代替了单倍型[9]。结果显示,对于刚出生的公犊牛,GEBV的估计可靠性比系谱指数均有所提高,对于不同性状提高的程度不同:乳蛋白率提高33%,乳蛋白量提高19%,肢蹄性状提高13%,乳房深度以及体细胞数提高13%,受精能力提高9%。

欧洲有多个国家开展了Eurogenomics的项目,截止去年,包括丹麦/芬兰/瑞典/挪威,法国,荷兰和德国在内的7个国家,参考群体公牛规模已经达到了16000头,除荷兰每年评估次数为24次外,其余国家评估次数均为12次,这些国家分别于2009年6~8月公布了其各自的官方GEBV。

1.5 各国研究结果的比较

上述4个国家的研究结果表明,GEBV的预测可靠性均高于系谱指数。由于美国和新西兰使用了更大规模的参考群体,因此他们最终得到GEBV估计可靠性高于澳大利亚。但是,哪种计算方法为最佳,由于在4个国家中的结论各不同,目前还尚无定论。

BLUP方法假定所有标记的效应符合正态分布,贝叶斯方法则是存在一个先验分布从而可考虑较大效应、较小效应以及效应为0的基因片段。上述4个国家得到的一致研究结果是:BLUP方法比贝叶斯方法略差,但该结果可能是由于上述研究均着重产奶性状而致,BLUP方法假设的大部分基因具有微小效应而仅极少部分或没有基因存在较大效应与生产性状的实际情况类似,从而避免了效应估计过高的缺点。另一种解释是可能由于SNP分布于大片段染色体上,该染色体片段的效应则被许多SNP瓜分导致每个SNP效应很小。在实际育种中,确实存在某些较大效应的SNP,比如DGAT1基因对乳蛋白率具有较大的直接影响[10],其可通过附近的SNP标记检测到[11]。

此外,上述4个国家都利用了选择指数理论,即将系谱指数与基因组信息加权整合而得到GEBV。比如,用可靠性作为加权值。这一方法有助于通过亲属平均育种值或者多基因育种值,综合考虑那些可能没有被SNP效应覆盖的QTL信息,对于群体中频率较高的QTL尤为重要。

2.最优化基因组育种计划的制定

全基因组选择可以对青年公牛进行准确预测,因此制定基于基因组选择的育种计划具有深远意义。2006年,Schaeffer对常规后裔测定进行了非常好的概括[1]:“在后裔测定计划中,每年选出大量种子母牛作为公牛母亲,然后与配特定公牛。青年公牛1岁时试配,每头公牛试配大约100头母牛,用于第一次估计EBV。约43个月之后,公牛女儿完成了其第一个泌乳期,从而可估计得到青年公牛产量性状的EBV,估计准确性约为75%(可靠性为56%)。青年公牛则成为验证公牛并开始生产冻精。”新西兰、美国、澳大利亚的试验均已证明,至少对于某些性状,在公犊牛出生时,采用基因组选择可以达到后裔测定育种值估计得准确性。则可以在公犊牛出生时而不必等到后裔测定结束才选择公牛,因此青年公牛的冻精也可以商用化使用,世代间隔缩短了一半。此外,通过对优秀的公牛母亲进行基因分型,并选择少部分与配特定公牛,、可增加选择强度,从而可提高遗传进展。考虑到生理特点,未来可行的方案是在公牛1岁时与配少量母牛以检测是否具有同质缺陷,然后在公牛2岁时候再进行冻精生产和推广[5]。

基因组选择的另一个影响是,将使现有育种模式逐渐倾向于平衡育种。在目前奶牛育种中,生产性状获得了较大的遗传进展,而繁殖性状则相对较小,一方面由于繁殖性状EBV准确性较低,另一方面是由于生产性状与繁殖性状存在负相关。如果在估计SNP效应时加入足够多的表型信息,基因组选择可提高繁殖性状EBV准确性,从而使繁殖性状对整体育种目标提供较大贡献。然而,如果参考群体规模较小,其选择准确性仍然很低。

基因组选择可以减少近交增量。如果在育种计划中世代间隔保持不变,基因组选择比仅仅通过系谱和表型信息的BLUP方法近交程度更低,对于低遗传力性状尤为凸显[16]。例如通过后裔测定选择后备公牛时,青年公牛预测育种值是父母育种值平均值,对于全同胞个体只能获得相同的预测育种值,而且如果足够高时,两个全同胞个体会全部保留。但通过基因组选择,则可得到不同的预测育种值,根据其高低选留优秀个体,而不是被迫保留2个全同胞个体,从而降低了群体内近交程度。

然而,如果在公牛出生时就进行GEBV估计,虽然世代间隔减半,同时也得到了更准确的GEBV,但是每年导致的近交增量可能高于孟德尔抽样群体近交程度减少量。为了避免这一现象发生,需要检测更多后备公牛。也可以限制某一特定公牛家系在后备公牛选择时的影响,以便将近交程度控制在可以接受的范围之内[17]。此外,优秀公牛母亲也需要测定基因组标记信息,并从系谱记录及基因组信息两方面考察其与后备公牛间的亲缘关系。

 3.问题与挑战

3.1 如何整合到国家遗传评估体系

在奶牛育种中,整合系谱、表型记录以及基因组信息以计算GEBV是一个挑战。最大的困难是,与现有数据库中已有记录的奶牛头数相比,能进行基因分型的奶牛太少。目前解决这个问题的切实可行的办法就是首先利用表型记录和系谱信息估计EBV,与GEBV进行加权整合得到最终的GEBV,用于择[18]。这个方法可以达到近似模拟研究的估计准确性,同时容易执行。

第二种可行的办法是推导出所有奶牛个体的标记基因型,然后计算GEBV。虽然这种办法面临着计算方面的挑战,但是可以克服由于不同个体标记基因不同或者部分个体无基因型所带来的问题。假如QTL的数量足够大,即使奶牛个体没有任何基因型而全部通过系谱推导,那么推导基因型也可用于计算分子血缘矩阵[18]。但是需要一种高效的推算海量奶牛个体基因型的方法。正如Harris(2008)指出的:把基因组信息全面整合用于国际间验证公牛的联合评估,正如Interbull一样,将是一项非常具有挑战性的任务,因为涉及到国家内和国家间SNP数据和预测方法的不同以及标记与环境间互作不同等诸多问题,全部这些问题非常困难。

3.2 全基因组选择所带来的长期遗传进展

Muir与Goddard认为,通过基因组选择得到的长期遗传进展不如传统的通过系谱及表型信息估计育种值高,这是由于数据模拟或数据预测所导致的[12][20]。

GEBV的预测要求SNP与QTL处于连锁不平衡状态,而选择会改变这种连锁不平衡状态。如果连锁不平衡被打破,则会导致基因组选择固定标记效应之后,有些QTL变异被遗漏。而基于表型记录的BLUP方法则不会出现这样的问题。因为基于表型记录的方法自动地使用了所有QTL信息,而基因组选择仅仅应用到被“发现的”或者估计到效应的标记信息[12],尤其对于低频率QTL,在参考群体中可能无法检测到。

Muir和Goddard均提出了针对这个问题的解决办法。Muir建议在GEBV中加入多基因组分从而利用到没有被SNP检测到的QTL变异。通过澳、美、新三个国家的研究,该策略已成功应用于基因组选择。Goddard建议设定一个最佳指数以最大化长期选择反应,比如Gibson在1994年提出的单QTL和多基因组分的建议[20]。最终指数应对不同频率的标记进行不同加权,对低等位基因频率的有效标记应给予更大权重。另一个能够获得低频率QTL效应的办法是利用单倍型代替单标记。导致SNP等位基因频率与QTL等位基因频率分布之间产生不相符,导致对于极少量的QTL等位基因检测能力下降。但单倍型的分布情况看起来与QTL分布更为相符,因此可更准确地检测出低基因频率QTL[20]。

Muir和Goddard建议不断的收集表型和基因型数据,对预测方程进行连续的重新估算,将可最大化基因组选择的长期选择反应。

4.结论和展望

目前,基因组选择被很多奶业发达国家所采用。对于公犊牛,GEBV的估计可靠性比EBV估计可靠性高,范围从2~20%不等。可以通过个方面利用GEBV相对较高的估计可靠性:其一,通过对大量公犊牛进行基因组范围内标记检测,选择很少公犊牛进入后裔测定体系,从而可以减少投入的同时获得额外的遗传进展。其次,也可仅仅利用GEBV对青年公牛进行选择,则可以对青年公牛冻精进行推广,由于缩短世代间隔从而获得更高的遗传进展。

同时,基因组选择在奶牛育种中应用还面临着很多机遇与挑战,包括如何实行国家范围内的基因组选择,品种间的基因组选择,如何同时获得更高长期遗传进展和控制近交程度,以及如何解决计算方面的问题。这些都将是未来的研究热点。


上一条 下一条