基因测序差异性研究的样本量计算

2017-05-19 17:00:42统计咨询

高通量测序技术(High-throughput sequencing)，又称下一代测序技术(next generation sequencing)是对传统测序的一次革命性改变，一次能够对几十万到几百万条DNA分子进行序列测定，同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能，又被称为深度测序(deep sequencing)。

随着第二代测序技术的迅猛发展，科学界也开始越来越多地应用第二代测序技术来解决生物学问题。与此同时，测序数据的爆炸式增长，对生物统计界既是挑战，也是机遇。跟大家预想的一样，生物信息学(Bioinformatics)越来越火了！它以计算机为工具对生物信息进行储存、检索和分析，是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。

科学研究再重要，也不能回避一个让大家都头疼的问题，那就是样本量为多少才合适？以最常见的差异性研究为例，我们想比较病例和对照中某基因表达量的差异，需要纳入多少样本的基因数据？传统的定量变量两组平行设计的样本量估算方法可能没有考虑到基因测序数据的特殊性，从而导致效能下降。

其实样本量的估算说难也不难(站着说话不腰疼)，不就是根据研究设计和数据特点选择合适的计算公式吗？没错，对于基因测序数据也不例外。下面给出的是基因测序数据进行差异性双侧检验，两组例数相等时的公式

公式中：

n代表每组样本含量
Z1-α/2和Z1-β需要查阅Z值表，常用的取值为1.96和1.28分别对应α=0.05，power=90%
μ代表测序深度，是指测序得到的总碱基数与待测基因组大小的比值；假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M，一般取5-20
σ代表测序变异程度，对于人类的样品，通常为0.4-1(一般取0.5)，而对于纯系的动物，通常为0.1或更小
Δ代表两组测序表达差异的倍数，一般取1.5或2

为了更好的理解这个公式，我们假设一项基因测序差异性研究，采用1:1平行对照设计，选用α=0.05，power=90%，双侧检验，其他参数保守估计选用常用值(μ=5，σ=0.5，Δ=2)，需要多少样本？

n=2*(1.96+1.28)^2*(1/5+0.5^2)/ln(1.5)^2=20

每组至少需要20例基因测序数据。

参考文献：

SNHART, TM THERNEAU, YUJI ZHANG, GA POLAND, JP KOCHER. Calculating Sample Size Estimates for RNA Sequencing Data. JOURNAL OF COMPUTATIONAL BIOLOGY. 2013, 20(12): 970–978.