解码生命 守护健康

基因芯片小知识(三)

2017-07-02 23:04:55科研生活

分类比较分析主要是比较两组或多组的已知样本类型的芯片实验,来寻找出与条件相关的特异性基因或显著差异表达的基因(differentially expressed genes, DEGs)。

分类比较中有两个因素至关重要:样本配对和对重复实验取均值。如果欲比较的实验样本是配对的,那么必须选择配对t-检验。


 

举例来说,如果实验是在每个病人的原发性癌症组织和转移后癌症组织上进行的,那么配对t-检验更为合适且能够提高分析的统计学效力。


 

如果在某些RNA样本进行了多次技术重复,那么该分析必须从那批技术重复中选择一个用来分析或使用均值。


 

当然对于重复实验芯片取均值最严谨的方法是通过使用散点图观察各技术重复实验间的相关情况,从而剔除质量较差的实验芯片,再而使用均值。


 

分类比较分析中每组至少两个样本每组至少两个样本,否则无法计算P值。

 


 

1. 二分类比较分析


 


 

t检验可用于两个生物条件下多个样本的差异表达基因的筛选。当t达到根据可信度选择的标准时,比较的两组样本被认为存在差异。实验资料是配对的,那么选择配对t检验。三分类及以上的比较分析就是把F-检验应用与以上所述的二分类比较分析。这种针对一个基因的单变量分析就是经典统计学上的均值差异比较,适用于正态分布,方差齐性的连续性资料。

 


 

2. 统计学校正


 


 

由于芯片包含了成千上万的基因,那么对每个基因采用单变量分析会产生较多的假阳性。
 


 

举例来说,假设我们设定0.001为显著性标准。如果芯片包含8000个基因,那么我们得到的差异基因列表中有8个会属于假阳性。如果列表含80个基因,那么其中就有十分之一的基因为假阳性。如果我们获得了一张24个差异基因的列表,那么就会有大约三分之一的基因为假阳性。


 

如此之多的假阳性基因会给解释和实验验证带来极大的麻烦。但如果显著性标准设置的太低,可能会筛选不到差异基因和产生较多的假阴性错误,即实际差异表达的基因被错误地认为没有差异表达。


 

所以需要对p值采用多重检验校正来解决这问题。一般有两种方式,一种是单变量置换校正,第二种是多元置换校正。

单变量置换检验在每个基因上单独进行,Benjami&Hochberg方法被用于这种估计。


 

Benjamini于1995年提出一种方法,通过控制FDR(False Discovery Rate)来决定P值的域值. 假设你挑选了R个差异表达的基因,其中有S个是真正有差异表达的,另外有V个其实是没有差异表达的,是假阳性的。


 

实践中希望错误比例Q=V/R平均而言不能超过某个预先设定的值(比如0.05),在统计学上,这也就等价于控制FDR不能超过5%。设总共有m个候选基因,每个基因对应的p值从小到大排列分别是p(1),p(2),...,p(m),则若想控制FDR不能超过q,则只需找到最大的正整数i,使得 p(i)<= (i*q)/m 。然后,挑选对应p(1),p(2),...,p(i)的基因做为差异表达基因,这样就能从统计学上保证FDR不超过q。


 

估计的FDR=m*pi/i 其中pi 是第i个基因的单变量置换检验p值,m是所有待检验的基因数。单变量置换检验除了Benjami&Hochberg方法还有其他更为严格的校正方法,例如Bonferroni correction,Bonferroni Step-down (Holm) correction和Westfall and Young。

当每个分类的样本数较小时,多元置换检验比单变量置换检验更有效率,因为对于小样本很难进行足够的随机置换从而给出p值为0.001之类的严格阈值。


 

该方法提供了在所发现的基因列表(Discovery List)中控制假阳性(False Discoveries=False Postives)基因的个数和占所发现基因比例的能力。例如可以指定在90%的置信度下得到的基因列表中假阳性占5%以下的基因。


 

多元置换检验的算法与SAM(Statistical Analysis of Microarrays)方法类似,而后者对假阳性个数和比例进行了更严格的概率控制。

Significance Analysis of Microarrays (SAM)是由斯坦福大学Tucher 等人开发出来用于识别基因芯片中显著差异基因的算法工具 (http://www-stat.stanford.edu/~tibs/SAM)。该算法是控制假阳性率的一种方法,FDR在SAM中被定义为假阳性基因个数的中位数除以显著差异基因的个数。

首先计算每个基因的矫正的统计量(对于两类比较使用t检验,多类比较使用F检验),其分母包含一个“标准差修正因子”(Fudge Factor For Standard Deviation)用于稳定基因的特异的标准差估计量。


 

我们对这些统计量按升序排列(F(1), F(2), …, F(i), …, F(n)),其中n是基因总数。然后我们对分组变量进行随机组合置换,每次计算以上的统计量序列。期望的序列统计量就是每次组合置换的序列统计量的均值。


 

我们比较真实分组与置换期望的序列统计量,定义F(i*)(Δ)为阈值点,其中i*( Δ) 是真实分组统计量大于期望统计量至少Δ数值的第一个序数i。统计量大于此阈值点的基因被认为是“显著差异基因”。


 

如果在真实分组认定为“显著”基因在随机置换过程中被评估为假阳性,那么计算整个所有置换中假阳性基因数的中位数。该中位数再乘以一个收缩因子,该收缩因子代表了真实的基因在数据集中的比例。


 

具体是这样计算的:收缩因子等于真实统计量落入所有基因在置换中的25%~75%区间的个数,再除以基因总数的1/2。如果收缩因子大于1,那么使用1代替。某个Δ值下的FDR就等于假阳性基因个数的中位数乘以收缩因子再除以“显著的”基因数。


 

在SAM工具中,需设定FDR和列置换的次数,然后会自动搜索Δ的范围并最终给出一个优化Δ。“标准差修正因子”则通过搜索一定范围内的可能值,并最终给出一个最小化的变异系数即修正统计量的中位绝对差值(minimizes the coefficient of variation of the median absolute deviation of the modified F-statistics)。
 

作者简介

 

赵忻艺,FS数据挖掘主编,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。