解码生命 守护健康

基因芯片小知识(五)

2017-07-04 23:07:35科研生活

分类预测的模型

 

以下是目前常用到的分类预测模型,包括混合协变量分类模型(Compound Covariate Predictor)、对角线线性判别分类模型(Diagonal Linear Discriminant Analysis)、最邻分类模型(Nearest Neighbor Predictor)、最邻质心分类模型(Nearest Centroid Predictor)和支持向量机分类模型(Support Vector Machine Predictor)。


其中混合协变量分类器和支持向量机只支持二分类情况。


 

1.混合协变量分类模型(Compound Covariate Predictor)


 


 

该分类模型是在指定检验水平下单变量显着的基因的对数信号强度的线性加权组合。


通过指定严格的显著性水平以获得用于构建分类器的基因。通过指定更严格的显着性水平,寻找较少的基因作为预测因子用于构建分类器。


相对比较中,在一组别中拥有较大表达数值的基因被赋予正值权重,而在另一组别中拥有较大表达数值的基因被标为负值权重。单变量检验t-统计量被用来作为权重[1]。 


 

2.对角线线性判别分类模型(Diagonal Linear Discriminant Analysis)

 


 

该模型与混合协变量分类模型类似,但不完全相同。


它是线性判别分析的一种,为了避免数据的过拟合,不考虑基因间的相关性。许多复杂的模型包含了过多的参数,以至于看似能很好的拟合模型中的训练集,但是对于独立数据的预测性能较差[2]。

 

3.最邻分类模型(Nearest Neighbor Predictor)

 


最邻分类器是基于训练集中的哪些样本的表达谱最类似于待预测样本来预测分类的。表达谱子集是一组来构建分类器基因的对数信号值的向量。


欧氏距离被用作该模型中的距离度量。一旦确定了训练集中的最邻样本,则这些最邻样本的分类将被用于预测待测样本。K-最邻分类模型也与之相似。


例如,使用3-最邻算法(3-Nearest Neighbor),将测试样本的表达谱与训练集中所有样本的表达谱进行比较,并确定训练集中最相似的3个样本。


距离度量是通过在指定的阈值显着水平下单变量显着差异表达的基因的欧氏距离。具体来说,一个测试样本确定了训练集中的3个最邻样本,在分类投票中,占比大的分类组别就是该测试样本的预测组别。
 
 


 


 

4.最邻质心分类模型(Nearest Centroid Predictor)

 


 


 

质心距离被用作该模型中的距离度量。


例如,在训练集中,有属于1组别和2组别的样本,计算每个组别的质心。组别1的质心是指训练样本的1组中的所有样本的组成基因的对数表达值的平均值作为质心向量。


在分类模型中指定的阈值显著性水平的差异表达基因成为质心向量(Centroid Vector)的组成基因。分别计算待检测样本余两类组别的质心距离后,质心距离最近的组别就是该测试样本的预测组别。

 

5.支持向量机分类模型(Support Vector Machine Predictor)

 


 

SVM是一种在机器学习领域受到广泛关注并且已在其它方面表现出色的预测算法。


SVM由V.Vapnik所开发,芯片分析中一般使用线性核函数的SVM,因为经验证明更复杂的SVMs所能带来的性能提升极为有限。


SVM分类器是一个由能够最佳区分两类样本的对数比值/对数信号强度和错分惩罚代价所构成的线性函数。可以设定惩罚代价。LibSVM是台湾林智仁(Chih-Jen Lin)教授2001年开发的一套支持向量机的库,这套库运算速度较快,可以很方便的对数据做分类或回归。


由于libSVM程序小,运用灵活,输入参数少,并且是开源的,易于扩展,因此成为目前国内应用最多的SVM的库。

 

6.贝叶斯混合协变量模型(Bayesian Compound Covariate Predictor)

 


 

该方法在2003年由G  Wright开发[3]。


 

在模型中,混合协变量是在所有样本中(包括在交叉验证中被剔除的测试样本)由能区分交叉验证训练集组别的差异表达基因的对数表达值的加权平均值计算而得来的,权重是该训练集中的差异表达基因的t检验统计量。


 

这些混合协变量的分值服从一元高斯分布,在训练集中的不同组别中高斯分布的均值是不同的,但方差被假定为相等并进行合并估计。

有了这个模型后,再使用贝叶斯的公式,测试样本中属于组别1的后验概率可以写为:P(class 1 | x) = P(x | class 1) * Prior(class 1) / { P(x | class 1) * Prior(class 1) + P(x | class 2) * Prior(class 2)}.

在上述公式中,x表示由测试样本中构成分类模型的基因的对数表达值的向量。由于高斯分布的假设,P(x | class 1) 是测试集中1组别的混合协变量分值的一元Guassian密度函数。P(x | class 2) 则对应组别2。Prior(class 1)Prior(class 2) 是两个组别的假设先验概率。

最终如果后验概率接近1或0,则该预测是明确的;如果后验概率接近0.5,结果就难以判断。在计算了后验概率后,我们把预测样本判定为后验概率较大的那一组别。


下期再为大家介绍其他的6种经典模型,敬请期待。

1. MD Radmacher, LM McShane and R Simon; A paradigm for class prediction using gene expression profiles. Journal of Computational Biology 9:505-511, 2002

2. S Dudoit, J Fridlyand, TP Speed; Comparison of discrimination methods for the classification of tumors using gene expression data, Journal of the American Statistical Association 97:77-87, 2002

3. G Wright, B Tan, A Rosenwald, EH Hurt, A Wiestner and LM Staudt; A gene expression-based method to diagnose clinically distinct subgroups of diffuse large B cell lymphoma, PNAS 100:9991-9996, 2003).


 

相关推文:

基因芯片小知识(一)
 

基因芯片小知识(二) 数据分析
 

基因芯片小知识(三)
 

基因芯片小知识(四)

 

作者简介

 

赵忻艺,FS数据挖掘主编,将大数据应用于医学科研,主要包括临床医学数据的挖掘、收集、整理和利用(标准化和科学化的数据库),医学分子大数据的整理、利用及研究(基因、蛋白及代谢)。特别针对肿瘤个体化的基因测序和数据快速处理,寻找个体化的分子标志物、药物靶标和治疗方案。目前,已建立浙大大数据挖掘团队,旨在降低研究者学习大数据的门槛,推动大数据共享与研究协作,发表更高质量的研究成果,为科研决策提供精准的预测和实验证据。