干货请收藏! TCGA数据库大汇总
一:简介
由美国政府发起的癌症和肿瘤基因图谱(Cancer Genome Atlas,TCGA)计划于2006年联合启动,目前已经收录了来自1万多例病人的33种癌症的数据,2.5PB的数据量。
二:数据内容和等级
TCGA收录的数据主要包括:
Microsatellite Instability (MSI)
这些数据可分为三个级别:1) level-1: 原始的测序数据(fasta,fastq格式等较为原始和粗糙的数据);2) level-2:比对好的bam文件;3) level-3:经过处理及标准化的数据。其中level1/2为controlled-access,level-3有部分是controlled-access,这一类型的需要向TCGA申请使用权限,而大部分普通用户只能访问Level3的部分处理及标准化的数据。详细的数据类型与其等级请查看页面:
https://cancergenome.nih.gov/abouttcga/aboutdata/datalevelstypes
三: 数据下载
· 推荐:TCGA官网的data-portal portal.gdc.cancer.gov。
· 推荐:Firehose服务器:gdac.broadinstitute.org。平台对TCGA的数据进行了整理并提供便捷的下载,但需要注意的是Firehose 收录的数据并不是TCGA实时更新的数据。下载的数据适合后期的R语言处理分析。
四 :即搜即用的TCGA数据挖掘网站
l UALCAN转录组与生存数据库
http://ualcan.path.uab.edu/index.html
UALCAN是用于分析癌症转录组数据的界面友好型在线工具。UALCAN旨在:
a)轻松获取公开的癌症转录组数据(TCGA转录组测序数据),
b)允许用户用TCGA数据挖掘生物标志物或对感兴趣的潜在基因进行数据库验证,
c)提供达到文章发表级别的基因表达和基于基因表达的患者生存分析图,
d)评估乳腺和前列腺癌分子亚型中的基因表达,
e)链接HPRD,GeneCards,Pubmed,TargetScan和人蛋白质图谱等数据库,快速提供关于所选基因的附加信息。
l MethHC甲基化与表达数据库
http://methhc.mbc.nctu.edu.tw/php/index.php
l MEXPRESS甲基化与表达数据库
http://mexpress.be/
l OncoLnc生存分析数据库
http://www.oncolnc.org/
整合了TCGA中的DNA甲基化,表达量及临床数据,主要用来探索甲基化,基因表达和临床表型之间的关联
l cBioPortal
http://www.cbioportal.org/index.do
整合和简化了包括TCGA,ICGC以及GEO等多个癌症基因组数据库的内容,可供下载。主要展示不同癌组织中基因的体细胞突变谱,拷贝数变异,mRNA,miRNA表达量变化,DNA甲基化变化以及蛋白质表达变化的情况,并结合患者的临床资料,绘制KM生存曲线。
l TANRIC:基于TCGA数据的lncRNA专用分析数据库
http://ibl.mdanderson.org/tanric/_design/basic/index.html
收集20种癌症的大量患者队列的lncRNAs表达谱数据,包括TCGA和多个独立数据集(总共> 8000个样品)。TANRIC可快速且直观地在肿瘤类型内或跨肿瘤类型中分析研究者感兴趣的lncRNAs(已注释的lncRNAs或任何用户定义的lncRNAs)和其他分子数据。该工具有利于快速检测具有潜在生物医学标记功能的lncRNAs。
l GEPIA:强大的综合分析能力