NAR杂志2月刊上,肿瘤研究者最爱的癌症基因组图谱集(The Cancer Genome Atlas,TCGA)数据又有新的数据挖掘文章发表啦!快和小编一起看看这次又是什么“套路”吧!
一张图快速了解TCGA
文章题目:The association between copy number aberration, DNA methylation and gene expression in tumor samples
中文题目:肿瘤样本的体细胞拷贝数变异,DNA甲基化和基因表达的相关性分析
发表日期: 2018 Feb 26
影响因子:10.162
研究背景
1) 研究目的在于进行TCGA开放数据的深度挖掘。
2) 系统分析6个癌种的体细胞拷贝数变异 (SCNA), DNA甲基化和基因表达之间的相关性,包括乳腺癌(BRCA),结肠癌(COAD),急性髓样白血病(LAML),成胶质细胞瘤(GBM),低级胶质瘤(LGG)和前列腺癌(PRAD)。
研究方法
1) 数据准备
2) 样本筛选
因为TCGA没有提供人群信息,本研究基于基因型的主成分分析方法,主要筛选欧洲人群。
研究结果
(以乳腺癌为主要展示结果,其它作者放在补充材料进行展示)
1) SCNA 与基因表达或者DNA甲基化的关系
a) SCNA主要影响临近基因组区域的表达或者甲基化,且SCNA与表达多正相关,而与甲基化可以正相关也可以负相关。
b) 研究者注意到数据分析时,协变量的控制很关键(batch效应,肿瘤亚型和肿瘤纯度等)。
c) 基于SCNA与甲基化的相关性分析,发现16号染色体有个高度集中相关区域。可能因为这个区域CTCF基因的拷贝数变化。CTCF为重要的表观调控转录因子,因此这个区域的拷贝数和甲基化程度紧密相关(下图)
2) 基因表达和DNA甲基化的关系
a) 肿瘤纯度严重影响了肿瘤样本中基因表达和DNA甲基化的相关性(下图)
图:是否对肿瘤纯度进行质控的相关性差别,左图(未质控),右图(质控)
b) 低度甲基化(cold)和高度甲基化(hot)区域的分布,提示肿瘤甲基化研究中对CpG shore的关注需要重视(下图)
3) 探讨SCNA,甲基化和表达的相互关系
以多种模型探讨三者的关系,如下图,主要包括:因果关系,被动关系和条件独立关系。结果发现条件独立模型在所有癌种中的占比最高。
讨论
本研究的意义:
提示肿瘤组织的细胞组成对甲基化和基因表达相关性分析的重要性,本研究开发的模型适宜于此类分析中协变量的矫正;
提示DNA甲基化与体细胞拷贝数变异可能正相关也可能是负相关;
首次探讨了体细胞拷贝数变异,甲基化,基因表达三者之间的调控关系,需要后续功能实验的进一步验证。