通路富集分析有助于研究人员深入解析由组学(基因组、转录组、表观组等)方法产生的基因列表数据,这种方法可以鉴定出基因列表中富集的生物通路。最新发表的这篇Nature Protocols文章详细解释了通路富集分析的步骤,并提供了一种实用指南来更好的诠释RNA-seq和基因组测序等实验产生的基因列表数据。该方案包括三个主要步骤:从组学数据中定义基因列表,确定统计学上富集的通路,以及结果的可视化及解释。具体应用到g:Profiler、GSEA、Cytoscape和EnrichmentMap四种工具。该方案为没有生物信息学经验的生物学家设计,可以在大约4.5小时内完成分析。
本文推荐四种工具完成富集通路分析,因为它们仅靠鼠标点击(point-and-click)即可完成分析,无需编程背景,易于上手。另外它们均可免费下载,能够完成高级功能分析,具有大量文档说明和最新更新数据库支持等。
● g:Profiler (https://biit.cs.ut.ee/gprofiler/)
● GSEA (http://software.broadinstitute.org/gsea/)
● Cytoscape (http://www.cytoscape.org/)
● EnrichmentMap (http://www.baderlab.org/Software/EnrichmentMap)
图1、方案概述
来自不同组学数据的基因列表通过使用g:Profiler或GSEA进行通路富集分析,鉴定实验中富集的通路。在Cytoscape中使用EnrichmentMap, AutoAnnotate, WordCloud和clusterMaker2命令,对富集结果进行可视化和解释。
o 名词解释(Box1)
步骤1、利用组学数据定义感兴趣的基因列表
组学数据定义基因列表有两种主要方式:基因列表(gene list)或排序基因列表(ranked gene list)(图1)。某些组学数据会产生一个基因列表,例如通过外显子测序鉴定肿瘤中的所有体细胞突变基因等,这样的列表适合于使用g:Profiler直接输入通路富集分析。其他组学数据会产生排序基因列表。例如RNA-seq获得的差异基因表达表格等,可以使用GSEA工具进行分析。
步骤2A、使用g:Profiler进行基因列表的通路富集分析 (图2,详细步骤参见原文)
图2、g:Profiler界面展示
步骤2B、使用GSEA进行排序基因列表的通路富集分析 (图3-4,详细步骤参见原文)
图3、GSEA界面展示
图4、GSEA输出举例
a、GSEA结果的网页摘要,显示了在排序列表的顶部或底部富集的途径,其中“na_pos”和“na_neg”表型分别对应于上调和下调基因的富集。b、Mesenchymal中通路富集图。c、Immunoreactive中通路富集图。
o 通路富集分析数据库资源(Box2)
o 多重检验校正详解(Box3)
o 通路富集分析中的统计检验解释(Box4)
步骤3、通路富集分析结果可视化及解释 (图5-8,详细步骤参见原文)
结果的可视化由EnrichmentMap软件完成。
图5、EnrichmentMap软件用户界面
图6、通路富集图结果展示
图7、EnrichmentMap热图结果举例
图8、可用于文章发表的富集结果展示
本文除了对组学数据的通路富集分析及可视化做了详尽说明外,还对实验设计、重复次数、参数和极端值的处理、通路基因集数据库的选择、其他软件方法的比较,以及常见问题等都做了说明,值得拿来慢慢品味。
原文网址:http://dx.doi.org/10.1038/s41596-018-0103-9
关于天昊
天昊生物具有多年基因组、转录组和表观组检测与分析经验,可以为用户提供多层次、全方位、一站式专业服务,期待成为您多组学测序分析的优质服务提供商!