基因芯片小知识（四）

2017-07-04 08:44:31科研生活

分类预测分析

预测基因的选择方法

我们通常会设定一个统计显著水平来作为选择预测基因的筛选标准，例如在分类比较分析中选定p值小于0.001的显著差异基因作为预测基因。

但分类预测真正的目的并不在于发现差异表达基因，而是寻找特征基因来预测结果，希望得到较少基因来构成分类模型，这样可能会在生物学意义方面更易解释，且在临床上更易应用。

交叉验证是分类预测分析中的基本概念，基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set)，另一部分做为验证集(validation set or test set)，首先用训练集对分类进行训练，再利用验证集来测试训练得到模型(model)，以此来作为评价分类模型的性能指标。

例如10折交叉验证(10-fold cross validation)，就是将数据集分成十份，轮流将其中9份做训练，1份做验证，10次的结果的均值作为对算法精度的估计。下期将详细介绍其方法。

由于我们并不知道到底选定一个严格的还是宽松的p值会带来更好的预测结果，所以需要一种在某个显著性水平区间内进行搜索，来确定一个最优的预测基因选择阈值——“可调参数”（Tuning Parameter），使分类模型的交叉验证错判率最小。

我们可以通过这样一个双重循环交叉验证进行：外层循环通过由训练集中分出的一个或多个样本组成的测试集来估计交叉验证错判率，内层循环对“可调参数”进行优化。当然，其中的计算强度相当大。

这种基因选择的方法是基于单个基因在不同分组中差异表达的排名高低。有些分类预测模型提供了多元建模方法来选择基因，但是纳入的标准都是基于基因在单变量检验中的“辨别能力”（Discrimination Ability）。

另外一个选择基因的方法是Bo和Jonassen所开发的贪婪配对法方法（Greedy-pair Method）首先根据训练集算出所有基因的单个t值，并进行排序，然后找出当前首位基因gi的配对基因gj，配对标准是：两个基因在对角线判别轴上进行投影时，两组分类的质心距离最大。

这两个基因被选出后，再剩下基因中重复以上过程直到选出基因数达到设定的配对数。该方法以选择配对基因来有效地区分组别，且是一种计算高效的方法。当然必须要设定的基因数（即配对数的两倍）。

还有一种方法叫支持向量机的递归特征消除方法（Support Vector Machine Recursive Feature Elimination，SVMRFE）。该方法首先使用支持向量机分类模型根据预测性能对基因来进行排序。

SVM算法是基于基因表达量的加权线性组合来区分组别。选择的线性组合能够最大化区分出难以分类的样本和识别出判别边界或距离。

首先，所有基因的表达值被用于训练SVM分类模型。SVM RFE算法则会去除线性组合中权重绝对值较低的基因，并在剩余基因中继续重建新的SVM分类模型，不断迭代剔除基因直到达到设定保留的基因数目为止。

下期为大家介绍一些分类预测中的标准模型，敬请期待。

作者简介

赵忻艺，FS数据挖掘主编，将大数据应用于医学科研，主要包括临床医学数据的挖掘、收集、整理和利用（标准化和科学化的数据库），医学分子大数据的整理、利用及研究（基因、蛋白及代谢）。特别针对肿瘤个体化的基因测序和数据快速处理，寻找个体化的分子标志物、药物靶标和治疗方案。目前，已建立浙大大数据挖掘团队，旨在降低研究者学习大数据的门槛，推动大数据共享与研究协作，发表更高质量的研究成果，为科研决策提供精准的预测和实验证据。

解码生命守护健康