解码生命 守护健康

学术前沿 | 基因突变相关数据库简介

2018-05-18 17:04:00仁东医学

对高通量测序数据进行处理得到突变位点之后,我们还需要对这些位点进行各类数据库的注释以了解这些突变的意义,而首先我们得要了解这些数据库是如何产生的、又包含了哪些信息,下面就对这个过程中使用频率较多的一些数据库进行一个简单介绍。


ExAC(Exome Aggregation Consortium):由Broad Institute整合而成,包含从60706个独立个体整合而成的人群突变频率。所有突变位点都是由同一套分析流程对不同来源的测序原始数据进行分析得到,这个操作确保了数据中突变的一致性。ExAC除了提供全部人群突变位点频率外还可进行不同人种的人群突变频率的注释。目前ExAC已经不会再进行扩充,一个新的数据库gnomAD包含了所有ExAC中的数据。


gnomAD(Genome Aggregation Database):由Broad Institute主导将众多全基因组和全外显子组的测序数据进行整合。gnomAD包含了ExAC中的所有数据以及其他样本数据的信息(分析方法和ExAC中数据完全一致)。目前gnomAD数据库中包含了123136个全外显子数据和15496个全基因组数据,囊括了ExAC、1000Genomes和TCGA中的数据。


1000Genomes:千人基因组计划从2008年到2015年期间对26个种族的2504个个体进行基因组测序分析,旨在检测到人群中最低1%频率的遗传多态性突变,目前这个数据库中收录的突变也包含于dbSNP中,使得很多数据信息都是冗余的。


dbSNP:这个数据库于1998年由NCBI主导开始构建,只收录非肿瘤样本的突变(snp和小于50bp的small InDel),并于2000年发布了第一版,dbSNP接受任何实验室或组织提交的数据,经过审核的数据就作为first class data收录,由于收录的数据没有统一的分析标准,dbSNP存在一定的假阳性。最新版本于2017年2月发布。


TCGA:这个项目由NCI和NHGRI合作进行,但已经在2017年终止了。数据库收录了33个癌肿11000个病人的临床数据信息、基因组突变信息、mRNA表达和甲基化等数据信息,是目前较大的癌症基因信息数据库。


COSMIC:于2004年开始发布,和dbSNP数据收录方式一样,来自于各个实验室和组织的提交数据或者文献数据,收集和整合癌症体细胞突变的信息,目前最新版本v85已经在本月初发布,是目前为止最大的人类癌症相关体细胞变异数据库。


Reference

Yann, G., Jonathan, L., Id, C. K., Sandrine, H., Claire, B., Gilles, S., … Sarah, H. (2018). What Does This Mutation Mean ? The Tools and Pitfalls of Variant Interpretation in Lymphoid Malignancies. https://doi.org/10.3390/ijms19041251