2017年的12月27日,《Nature reviews genetics》(目前世界公认的遗传学研究领域最顶尖的综述杂志)在线发表了名为Cancer transcriptome profiling at the juncture of clinical translation的文章,总结了二代测序技术应用以来肿瘤转录组的变化历程和其临床转化应用。
测序技术刚刚走过40年的历史,技术和分析方法不断革新,这也为肿瘤的复杂性和异质性研究,开发新的生物标志物和治疗策略带来了更多可能。在这篇综述里,作者将带领我们一起回顾肿瘤转录组测序的40年历史变迁,梳理其基本原理和方法的演替,以及这项技术对肿瘤临床带来的众多影响和改变。
癌症转录组学:四十年征程
核心事件
1、1977年J.C.Alwin首创Northern blotting,基于杂交检测单个转录本。
2、1979年完成首个编码人胰岛素原基因的核苷酸序列cDNA克隆。
3、表达序列标签(EST)和逆转录定量PCR(RT-qPCR)首次实现以无偏和定量的方式鉴定细胞mRNA表达水平。
4、1995年Schena等首次进行基于杂交的微阵列技术microarray,实现了首个“高通量”转录组检测。
5、基于Sanger测序法的SAGE (serial analysis of gene expression)和MPSS(massively parallel signature sequencing)被广泛应用。
6、2005年后,基于新一代高通量测序技术的转录组测序登上舞台。转录组测序也被称为全转录组鸟枪法测序(Whole Transcriptome Shotgun Sequencing, WTSS),简称RNA-seq。
7、2008年,推出了临床型NanoString是为靶向转录组学设计的,可直接检测条形码探针标记的单个mRNA转录子。
8、更多值得期待的转录组测序技术:如微流控方法用于单细胞转录组分离细胞;空间分辨转录组学用于确定组织样品或细胞中RNA的序列和位置;定位转录组学用于在固定细胞的样品中进行原位RNA测序等。
转录组测序的每一轮技术更新,都飞速的应用到了肿瘤研究领域。技术的更新,最直接的体现是数据量的指数级扩张。早先,EST数据主要存储在EMBL或者 GenBank中,而现在则需要更多的数据库出现,去存储,比对和应用这些数据。这里小编整理了几个转录组相关重要数据库的链接,是否正好有您需要的呢?
RNA连接基因组和表型
肿瘤表型是由遗传和表观遗传畸变的累积共同决定,最后通过特定的细胞实现克隆扩大。值得注意的是,虽然不同的肿瘤是独立进化的,但其中大部分都表现出被广泛认为是癌症标志的相似特征。这些表型需要细胞信号传导和细胞生物化学的广泛改变。例如,转移需要E-钙粘蛋白表达和细胞粘附下降,而免疫逃避可能涉及免疫检查点的表达上调。基因活动的变化可以反应许多表型,如炎症,血管形成,凋亡,增殖和基因组不稳定性。肿瘤多大程度的获得这些特征将会严重影响重要的临床变量,如增长率,转移指数和对药物的反应,最终决定临床进展和成果。
转录组分析可以通过捕获定量表达模式来检测和监管基因的变化,同时可以详细体现不同表型的基因活动差异。此外,很多基因组变异和表观遗传事件是可以直接从转录组检测到或间接推断得出。现代癌症转录组学的主要数据大致可以分为遗传数据和功能测量数据(上图),而功能测量数据的有效性主要取决于全基因组测定的广度,深度和碱基对分辨率。
基于转录组学的功能表型挖掘
基于二代测序的转录组数据,可以从多个角度挖掘基因在疾病发生中的特殊功能。作者提到了多个可能的基因活动改变机制:1)产生不同转录本,如采用不同翻译起始位点等;2)RNA编辑;3)RNA修饰;4)病毒基因组插入以及病毒基因组对宿主基因组的影响;5)基因融合;6) 等位基因差异表达等;这里提到的每个角度,都可能在癌症发生中扮演着关键作用。
肿瘤表型不仅仅是差异表达
肿瘤转录组学数据分析可以分为五大类别:1)差异分析侧重于肿瘤与正常组织之间的基因,基因组,通路或网络层面的差异挖掘;一般需要至少两组配对或不配对的样本。2)相对分析一般比较单个样本或一组样本与整个队列的差异,并试图确定转录异常值是否可以作为临床上有用的标记。3)成分分析利用不同细胞的基因表达特征类型来评估(或控制)肿瘤细胞纯度,将样品解卷积成肿瘤和非肿瘤细胞类型和表征免疫渗透。4)全局分析是将样本与大型参考数据库进行比较(通常是泛组织或泛癌种),以表征癌症的总体转录组学特征,如癌症的标志,原发组织类型或基因型 - 表型关系。5)综合分析,是尝试用其他数据补充转录组数据,如DNA测序,功能基因组学(例如,DNA CpG甲基化)或临床数据(例如病理学),然后进行整合分析。
RNA作为诊断分析物
RNA作为诊断分析物最大的挑战在于其不稳定性,不稳定引起的RNA降解会严重影响后续RT-PCR或者转录组测序的数据质量。对于肿瘤组织来说,甲醛固定过程会大大降低RNA的质量,影响后面的转录组测序。为了克服RNA降解的问题,实际上很多团队也在尝试改进RNA-seq的试验方法。例如15年Genome Research杂志发表的hybrid capture RNA-seq方法,结合了外显子区域基因捕获技术和深度测序,可以良好的实现高度降解RNA的转录组数据测定。大多数血浆游离RNA(cfRNA)主要来源于凋亡和坏死细胞,在疾病发生,如癌症发病后会出现上升。因此,分析cfRNA关键取决于分离细胞的体外稳定性,并需要专们的样品处理和保存方法。如果分离的细胞变得不稳定,cfRNA就会被
来自正常细胞的胞质RNA所稀释。某些RNA其实特别适合用于开发诊断marker,例如环状RNA对核酸外切酶具有抗性,在血小板和外泌体富集;肿瘤相关的miRNA与蛋白存在紧密结合,可以保护它们免于
血液RNases的降解;lncRNA具有显著的肿瘤特异性,部分在癌组织具有非常高的表达水平。
基因表达特征用于预后预测
在过去的20年中,基因表达谱已经反复被用来挖掘临床上有用的特征标记。这些标记如果确立了分析有效性和临床有效性,便可以被开发为生物标记物。
生物标志物在临床肿瘤学中的潜在应用跨越疾病的整个过程。具体而言,生物标志物可用于筛选和早期癌症检测。诊断测试可以帮助确定主要癌症类型或确定疾病亚型。预后相关预测性生物标志物可用于评估患者的风险和对药物的反应,从而指导治疗选择。在治疗过程中,标志物可以用来检测治疗早期反应或药物毒性,从而可以在引发严重副作用前改变治疗方案。最后,敏感测试可以用来检测疾病复发之前的其他症状。
上面提及的这些标志物应用想法,有部分已经开始了商业化临床验证。例如,目前临床上对于集中主要的癌症类型都有商业的预后标志物体系可选,包括乳房(MammaPrint,OncotypeDX和Prosigna),肺(GeneFx),前列腺(Prolaris)和结直肠(ColoPrint)。目前大多数基于RNA的生物标志物体系都包含多个基因,主要依据RT-qPCR检测。但是,随着全转录组测序成本急速下滑,一个分析嵌入多个检测体系很快将成为可能。全面的前期分析可能特别有利于还没有建立标志物体系的癌种监测和回顾性临床试验的开展。
展望
尽管基于DNA的分析仍然是检测驱动癌症遗传畸变的主要手段,但RNA转录组测序的独特数据产出保证了基于RNA的癌症诊断将会在精准肿瘤学中有自己的一席之地。不断创新的转录组分析技术极大地拓展了我们对癌症的认识,同时也使得癌症研究成为生物学的第一个数据密集领域之一。方法学上的进步将继续消除限制RNA分析的空间,测序成本的快速下降将使更大通量的测序变成可能。随着大规模并行RNA-seq项目的开展,我们期望看到再一次的数据量指数级增加。癌症转录组学未来的成功将取决于我们是否能够把这些巨型数据转化为新的癌症药物和分子诊断方法。这反过来又将取决于我们确定癌症表型和剖析癌症发生中的精准和可测试的调控网络的能力。
总体而言,以RNA为基础的诊断应用,其成功将取决于目标RNA的合理选择,组织处理的持续改进和RNA转录组分析计算方法的开发和验证。