解码生命 守护健康

癌症基因表达数据库 (一)

2017-05-31 23:01:12上海元莘生物

癌症研究一直是生物医学领域的热点。特别是随着高通量基因测序技术的出现,癌症相关的生物数据呈现着指数式增长。这类数据复杂而多样,包含了基因组变异、基因表达、甲基化数据等。因此,为了使更多的科研人员能够方便高效地使用这些数据,越来越多的数据库与网页服务器工具被设计。本期小编就先和大家一起学习与癌症基因表达相关的数据库吧(表1.1)。


1.1. 癌症基因表达数据库

 

 


       TCGAhttps://cancergenome.nih.gov/)与ICGChttps://dcc.icgc.org/)都是综合型数据库。它们的数据都是来源于一些大规模癌症合作项目,数据信息最为丰富。然而没有提供交互式的分析服务,相当于一级数据库。因此,这两个数据库只提供了基因表达数据(FPKM归一化或者readscounts数据)的下载服务(图1.1,图1.2)。


 

1.1. TCGA RNA-seq数据


1.2. ICGC中数据下载页面


CGWBhttps://cgwb.nci.nih.gov/实际上是一个癌症数据可视化的数据库。其基因表达数据主要来自于TCGA。对这部分数据展示,CGWB提供了两种方式:1.以柱状图形式呈现每一个癌症样本中基因的表达水平分布(图1.3);2.以热图形式将该数据与其它数据(如拷贝数变异数据、临床数据)进行了整体展示。


 

1.3. TCGABLCABladderurothelial carcinoma)病人的基因表达分布


cBioPortalhttp://www.cbioportal.org/)是一个综合性癌症数据分析数据库,提供了数据查询、展示、分析以及下载等功能。目前,该数据库收录了体细胞突变、DNA拷贝数变异、基因表达、DNA甲基化、蛋白质丰度和临床等数据。这些数据主要来自于TCGACCELCancerCell Line Encyclopedia)和一些癌症研究工作。我们可以通过四步来进行数据的查询(如图1.4)。对于基因表达数据的分析主要包括了热图整体性展示(图1.5)、与其它数据(如拷贝数变化、DNA甲基化以及蛋白质水平)的关联分析(图1.6)、依据临床信息划分的样本集之间的表达比较分析(图1.6)、基因间表达相关性分析(图1.7)。


1.4.cBioPortal查询页面


1.5.基因表达热图


 

1.6. cBioPortal Plots界面


 

1.7. cBioPortalco-expression界面


 

GEPIAhttp://gepia.cancer-pku.cn/index.html)是一个基因表达数据交互式分析的数据库,表达数据主要来自TCGAGTExhttps://www.gtexportal.org/home/)。目前收录了9736个癌症组织样本(33种癌症)和8587正常组织样本的表达数据。该数据库功能十分强大,提供了差异表达分析、动态展示、基于基因表达的生存分析、表达相似基因分析、基因表达相关性以及主成分分析。并提供了非常丰富结果展示(图1.8)。

1.8. GEPIA分析的结果展示


 

 

CRNhttp://syslab4.nchu.edu.tw/)数据库也是一个基因表达数据分析数据库。其表达数据主要来源于GEOhttps://www.ncbi.nlm.nih.gov/geo/)与TCGA。目前收录了28种癌症共11447个样本的表达数据,并根据样本的临床信息将每种癌症分成了若干个子数据集。该数据库使用简单直接。我们只需选择了癌症类型和配对子集,就可以进行差异表达分析与mRNA-lncRNA共表达网络构建(图1.9)。


 

1.9. CRN数据库

 


tRF2Cancerhttp://rna.sysu.edu.cn/tRFfinder/)是一个网页服务型数据库。提供了基于小RNA深度测序数据的tRFstRNA-derived small RNA Fragments)鉴定工具-tRFfinder;估计癌症样本中tRFs表达丰度工具-tRFinCancer以及基因组展示tRFs的工具-tRFBrowser目前,该数据库共鉴定了TCGA32种癌症共10991个样本的tRFs。我们只需输入fasta格式的小RNA序列(图1.10),就可以得到预测的tRFs序列相关信息。包括序列、结构、表达丰度、基因组位置等信息(图1.11)。


 

1.10. tRFfinder 提交页面


 

 

 

1.11. tRF2Cancer查询结果

 

dbDEMC 2.0 http://www.picb.ac.cn/dbDEMC/)是一个存储和展示癌症样本中差异表达miRNA的数据库。目前,该数据库收录了36种癌症共2224个差异表达miRNA。这些基因是基于GEOTCGA209套数据集分析得到的。我们可以基于基因信息或者研究实验(experiments)来查询miRNA结果。如图1.12AC,点击差异基因列表中miRNA ID可以得到这个基因的详细信息(E)。此外,该数据库还可以通过选择多个癌症,用热图的形式展示了miRNA的差异表达信息(图1.13)。


1.12. dbDEMC 2.0数据库


 

1.13. dbDEMC 2.0数据库的Meta-profiling Heatmap分析

 

ISOexpressohttp://wiki.tgilab.org/ISOexpresso/)是一个提供癌症样本中转录本表达信息和分析的数据库。该数据库目前收录了TCGA30中癌症类型共10422样本的基因和转录本表达信息。我们可以通过选择不同组织、癌症类型和基因名进行搜索(图1.14 a)。查询结果包含了该基因转录本的注释信息以及不同转录本之间的表达情况(图1.14 b)。如果我们同时选择了癌症和正常样本(Normal-tumor comaprison选项),数据库还会给出转录本肿瘤特异性信息(图1.15)。另外,我们还可以上传癌症突变数据,该数据库会基于该癌症中转录本表达信息,对突变数据进行注释。


1.14. ISOexpresso数据库查询和结果呈现


 

1.15. 癌症组织特异性信息


 

以上就是这期的全部内容啦,小编相信这些数据库一定会给我们带来意想不到的方便。还有,这里介绍的是RNA-seq数据的癌症数据库哦,还有很多基于基因芯片数据的癌症数据库。那就下期再会了。


 


 

参考文献

1.    Cancer Genome Atlas Research N, WeinsteinJN, Collisson EA, Mills GB, Shaw KR, Ozenberger BA, Ellrott K, Shmulevich I,Sander C, Stuart JM: The Cancer Genome Atlas Pan-Cancer analysis project.Nature genetics 2013, 45(10):1113-1120.

2.    International Cancer Genome C, Hudson TJ,Anderson W, Artez A, Barker AD, Bell C, Bernabe RR, Bhan MK, Calvo F, Eerola Iet al: International network of cancer genome projects. Nature 2010,464(7291):993-998.

3.    Zhang J, Finney RP, Rowe W, Edmonson M, YangSH, Dracheva T, Jen J, Struewing JP, Buetow KH: Systematic analysis of geneticalterations in tumors using Cancer Genome WorkBench (CGWB). Genome research2007, 17(7):1111-1117.

4.    Gao J, Aksoy BA, Dogrusoz U, Dresdner G,Gross B, Sumer SO, Sun Y, Jacobsen A, Sinha R, Larsson E et al: Integrativeanalysis of complex cancer genomics and clinical profiles using the cBioPortal.Science signaling 2013, 6(269):pl1.

5.    Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z:GEPIA: a web server for cancer and normal gene expression profiling andinteractive analyses. Nucleic acids research 2017.

6.    Li JR, Sun CH, Li W, Chao RF, Huang CC, ZhouXJ, Liu CC: Cancer RNA-Seq Nexus: a database of phenotype-specifictranscriptome profiling in cancer cells. Nucleic acids research 2016,44(D1):D944-951.

7.    Zheng LL, Xu WL, Liu S, Sun WJ, Li JH, Wu J,Yang JH, Qu LH: tRF2Cancer: A web server to detect tRNA-derived small RNAfragments (tRFs) and their expression in multiple cancers. Nucleic acidsresearch 2016, 44(W1):W185-193.

8.    Yang Z, Wu L, Wang A, Tang W, Zhao Y, ZhaoH, Teschendorff AE: dbDEMC 2.0: updated database of differentially expressedmiRNAs in human cancers. Nucleic acids research 2017, 45(D1):D812-D818.

9.    Yang IS, Son H, Kim S, Kim S: ISOexpresso: aweb-based platform for isoform-level expression analysis in human cancer. BMCgenomics 2016, 17(1):631.