全基因组关联分析(Genome-wide Association Study)是利用高通量基因分型技术,分析数以万计的单核苷酸多态性(SNPs)以及这些SNPs与临床表型和可测性状的相关性。简单地理解全基因组关联分析,GW AS就是标记辅助选择在全基因组范围上的应用,在全基因组层面上开展大样本的、多中心的、重复验证的技术,并对相关基因与复杂性状进行关联研究,从而全面地揭示出不同复杂性状的遗传机制和基础。GW AS是一项开创性的研究方法,因为它可以在以前很难达到的分辨率水平上对成千上万无关样本的全基因组进行研究,且不受与疾病有关的先验性假设的限制,GWAS在全基因组范围、零假设性较候选基因研究都迈出了重要的一步,而且随着高通量测序成本的降低,GW AS在人类疾病以及畜禽经济性状的研究上都表现出巨大的优势。
GW AS的优势除了可以一次性检测到数以万计的SNPs信息,从而提高试验效率以及检验功效以外,其还有其他两个显著的优势,主要表现在:(1)对未知信息的基因进行定位探索。传统的QTL定位仅仅限于对已知的候选基因进行分析探索,而GW AS是对全基因组的范围内的所有位点进行关联分析,因此其拥有更广泛的关联信息,相比候选基因分析GW AS 更有可能找到与性状真正关联的候选基因,因此不再受到预先假设的候选基因的限制。(2)对于GWAS在研究不同的复杂性状之前,不需要像以往的研究一样“盲目地”预设一些假定条件,而是通过在病理和对照组中,有目的地比较全基因组范围内所有SNPs的等位基因频率或者通过家系进行传递不平衡检验(TDT,Transmission disequilibrium test),从而找出与复杂性状显著相关的序列变异。到目前为止,利用全基因组关联分析研究已经挖掘出众多与各种复杂性状相关联的基因和染色体区域,在这些被新鉴定出的位点和区域中,只有小部分结果位于以前对这些性状研究的区域之中或者附近,绝大多数位于以前从未被研究过的区域,GW AS的研究结果表明以前没有被纳入研究的未知区域有可能对于复杂性状也是十分
重要的,这也是以往的研究水平所不能达到的。全基因组关联分析为进一步研究复杂性状的遗传机理提供了新的线索,为复杂性状的研究开辟了新的研究道路。
1、全基因组关联分析SNPs分型及质量控制 1.1基因分型过程
基因分型技术的发展在GWAS变成现实的过程中起着重要作用。现在上百万的遗传变异可以在预先设计的寡核苷酸微阵列(Affymetrix或Illumina)中同时检测到。这些芯片多数检测的是SNPs,同时有些芯片可以检测到拷贝数变异(copy number variants,CNV)。DNA 基因分型产生一系列的杂交强度,这需要转变成实际的基因型,这个过程称为基因分型(genotype calling)。
1.2分型SNPs的质量控制
质量控制是用于评价样本和基因分型芯片的基因型性能的操作。在试验中存在很多影响因素,如DNA降解,加样错误或是芯片杂交失败等,因此在下一步基因型分析之前评价试验性能是很重要的。同时,确定和排除那些很有可能确实或者错误分型的SNPs是十分重要的。
对于某一个单个样本的质控标准主要包括:(1)样本检出率(sample call rate),是指对于某个样本个体而言,通过测序并成功判型的SNPs与所有检测的SNPs的比值,通常的标准应当在80%或90%以上。(2)杂合型的程度(heterozygosity),这个标准过高即被排除,因为过度的杂合说明样本可能被污染,从而导致杂合基因型数目不相称。通常的标准应当控制在23%-30%之间。
对于单核苷酸多态性的质量控制主要包括了:(1)SNP检出率(SNP call rate),同样指对于某一个SNP位点,被成功检测到的样本与所有样本的比值,一般要求在90%以上。(2)较小等位基因频率(minor allele frequency,MAF),对于那些MAF较小的SNPs,能得到的信息量很少,而且目前GWAS对这些SNP的检验效能也不高。通常对于MAF的要求需要在3%以上。(3)哈代-温伯格平衡(Hardy-Weinberg equilibrium,HWE)检验,HWE可以有助于确定那些有明显基因分型错误的SNPs。因此一般要求位点SNP的等位
基因频率符合哈代-温伯格平衡。
1.3 GWAS结果多重检验校正
多重假设检验所引起的I型错误扩大和假阳性关联是全基因组关联分析研究面临的难题之一。多重假设检验的次数取决于待研究的基因组标记的数量,而检验的效率又取决于多重假设检验的次数。如今,有多种方法可以用来校正GW AS中多重检验后的P值,用来减少假阳性的出现。
1.4 Bonferroni校正法
即对于每个检验位点的校正阈值,将原本的显著性阈值(0.05)除以进行假设检验的次数设定为校正后的显著性阈值,再与假设检验得到的每个位点的P值进行比较,如果小于校正阈值,则可判断该位点与性状之间的关联存在显著性。这种校正方法是多重比较中对P 值的调整最为严格和保守的一种方法,虽然确保而且减低了假阳性的发生率,但是过度的校正反而容易导致加阴性的概率。
1.5 置换检验法
置换检验的核心思想就是数据重排(permutation),数据重排的观念最早是由Fisher和Yates在1949年提出的。该方法的主要有两种思路:(1)将分析样本的表型值固定,然后将其基因型随机地进行打乱重排(一般保证在10000次左右),每次重排都可以计算得出一个P值,然后对所有的P值构建一个经验分布,并设定5%处的P值为校正后的显著性阈值,最后与实际关联分析得出的P值进行比较,若小于校正阈值,则说明与性状关联。(2)将分析样本的基因型值固定,对表型进行随机重排,后续工作与前者相同。
1.6控制错误发现率法
控制错误发现率(FDR,False discovery rate)法,即FDR法是由Benjamini和Hochberg 提出的通过控制错误发现的概率对P值进行调整的方法。该方法与递减调整法有相似之处,同样先将关联分析得到的所有P值从小到大进行排列,但最后乘以的系数有所改变,FDR 的加成系数是总检验次数即所有位点数除以该检验位点在从小到大排序的排位。最后得到的校正P值与显著性阈值0.05进行比较,若
小于0.05则说明性状与该位点显著关联。
2 基因型数据
本研究中的60个无关个体的耳组织利用天根试剂盒进行DNA提取,后均采用Illumina 公司的Porcine SNP 70K Beadchip(Illumina Inc., San Diego, CA)芯片进行SNP分型。利用Illumina公司提供的BeadStudio软件将测序的原始数据进行可视化处理并导出成文本格式文件。通过运用R语音程序编写对文件进行编译修改成满足PLINK软件包对GWAS分析所需要的文件格式。进一步通过R语言编辑成满足ROADRTRIPS在关联分析上需要的文件格式。
2.1 Illumina Porcine SNP 60K Beadchip
由Illumina公司和Genseek公司共同开发出来的Porcine SNP 60K Beadchip是在之前Illumina公司开发的Porcine SNP 60K Beadchip的基础上研发出来的,共有64232个标记。。这些位点主要包括了与猪的免疫,生长,肉质等性状相关联的SNP标记位点,并且标记在各个染色体上的分布也相对均匀。
2.2试验猪DNA样本提取 本研究所用的样品为98头香猪。
本试验采用试剂盒天根组织DNA提取试剂盒从血液提取基因组DNA,具体步骤如下:
(1) 取200ul血液样本并装入一个洁净的1.5ML离心管中。 (2) 加入250μl 缓冲液GS,用眼科剪将样品组织均匀剪碎至糊状。 (3) 加入25μl 蛋白酶K以及250μl缓冲液GB,涡旋混匀。 (4) 放置于56℃水浴锅(或杂交炉),消化3 -5小时。消化结束时液体应清亮无絮状沉淀,取出离心管。
(5) 向离心管中加入200μl 无水乙醇,颠倒混匀,此时可能会出现絮状沉淀。
(6) 将离心管中液体倒入对应的吸附柱中,12000rpm 离心1min,弃废液。
(7) 加500μl 缓冲液GD,12000rpm 离心1min,弃废液。 (8) 加700μl 漂洗液PW,12000rpm 离心1min,弃废液。
(9) 加500μl 缓冲液GD,12000rpm 离心1min,弃废液。 (10) 空甩,12000 rpm,2 min。
(11) 开盖,将吸附柱转入新离心管中,弃去收集管,室温放置5-10 min,散尽酒精。
(12) 向吸附柱中间位置悬空加入50μl 在56℃预热的洗脱液TB,室温放置10min或4℃过夜,使TE 充分溶解DNA 沉淀。
(13) 12000 rpm 离心2min,弃去吸附柱,将溶液收集到离心管中,既得DNA 溶液,用NANODROP2000 紫外分光光度计和凝胶电泳检测提取质量。
(14) 将检测合格的基因组DNA放置于4℃保存或-20℃长期保存。 2.3 质量控制
借鉴以往对Case-Control试验设计以及对全基因组关联分析质量控制的方法,在对基因型数据与表型数据进行关联分析之前,对原始基因型的64232个SNPs数据进行质量控制。参考今年来全基因组关联分析的质量控制标准,本研究的标准控制如下:
1. SNPs的call rate保证在90%以上,有2667个位点不符合要求剔除;
2. 个体中SNP的call rate保证在90%以上,97头个体均符合要求;
3. 最小等位基因频率不得小于5%的SNP位点,有15351个位点不符合要求剔除;
4. 剔除偏离或严重偏离哈代-温伯格平衡检验,即显著性P值小于10-6的SNP位点,共
有3976个位点不符合要求剔除
通过质量控制之后,共收集到40909个SNPs位点用于后续的全基因组关联分析。
在本试验中,我们利用PLINK软件进行关联分析,PLINK软件是一个功能强大的主要针对全基因组关联分析的软件。结合基因组控制(Genomic Control)所估计出的统计量对试验群体进行群体分层校正,其主要原理是基于估计出的统计量与原假设进行比较,若严重偏
离原假设1就说明存在群体分层现象。对香猪的全基因组关联分析可以是对二分类性状的关联分析,利用PLINK软件单标记卡方检验,对其进行Bonferroni校正得出的显著性P值,进行对数转换后,利用R语言作图。
2.4 群体分层的Q-Q图
通过PLINK软件的基因组控制方法,对试验群体的分层情况进行估计,利用计算得出的卡方值得中位数作为统计量即基因组膨胀因子的值,计算结果为1.71,偏离原假设1。因此,对试验群体进行群体分层校正。
对于群体分层一直都是GWAS研究中十分重要的问题,为了反映研究群体的分层情况,一般利用Q-Q图(Quantile-quantile plot)来其进行检测。从Q-Q图上可以看出从群体中检测得到的显著性位点是否与期望的更多。如果有没有发现的群体分层的出现,则会导致整个分布偏离原来预期的没有SNP与目标性状相关联的零假设分布。根据观测值可以计算出相应的统计量,与零假设下计算出的统计量的分布进行比较判断,检验是否存在群体分层或者是够存在显著与疾病相关的位点。
通过对GW AS结果得出的各个位点的p值通过基因组控制进行校正后,利用校正后的
p值做Q-Q图。
2.5 基因组关联分析的显著性检验
本研究也采用置换检验的方法来建立检验统计量的经验分布,同时对统计量进行多重检验的校正。置换检验的方法主要是根据试验群体,固定个体的基因型不便,对表型进行随机重排,从而进行全基因组水平的关联分析得出相应的检验统计量的值。每次置换或者重排之后,都会得出检验统计量新的数值,通过大量的随机重排之后,就可以利用大量的关联分析统计量数值构建出这个统计量的经验分布。然后选取95分为点作为全基因组关联分析0.05的显著性水平阈值,即通过试验群体的表型值对某SNP进行的关联分析得到的检验统计量数值如果小于该阈值,就表明该SNP在0.05水平下是不显著的,即其相
伴概率是大于0.05的。本试验中进行的随机重排的次数是5000次。由PLINK软件利用基因型数据对试验群体进行了群体分层校正,因此本试验主要对PLINK的试验结果进行置换检验。
利用置换检验的方法在全基因组水平下,对于香猪最好产仔数性状而言所得到的经验分布的显著性0.05的阈值应为1.31×10-6。利用此阈值对所有检测出的位点P值进行比较,最终发现与性状显著相关联的29个SNP位点。
因篇幅问题不能全部显示,请点此查看更多更全内容