【昊阅读】基因表达数据模块检测方法综合评价

发稿时间：2018-03-28来源：天昊生物

全基因组基因表达数据分析的关键步骤是使用模块检测方法将基因划分为不同的共表达模块。由于经典聚类方法的局限性，人们已经提出了许多可选的模块检测方法。通过处理样本子集中的共表达，对调节网络建模以及允许模块间的重叠来改进聚类。本文研究者就利用已知的数据来对这些不同的方法进行总结及评估。

发表期刊：Nature Communications 发表时间：2018-3-15 影响因子：12.124

模块（module）是什么？

本文中的模块被定义为具有相似表达情况的一类基因，它们趋向于功能相关和被共同调控。自从全基因组基因表达技术出现以来，模块化检测方法一直是基因表达生物学解析的基石。除了允许对基因表达数据进行更全面和客观的解释之外，基因表达模块还经常用于推断转录因子和推定与靶基因之间的调节关系。

模块检测方法：

聚类法（clustering methods）、分解法（decomposition methods）、双聚类法（biclustering methods）、直接网络推理法(direct network inference)、迭代网络推理法(iterative network inference)。

目前最流行的模块检测方法是聚类的方法，至今它仍是应用最广泛的方法。但是，聚类方法具有三个主要缺点：1）聚类方法只考虑所有样本之间的共表达情况。由于转录调节具有高度的特异性，聚类可能丢失仅存在部分样本中的局部共表达效应。2）大多数聚类方法不能将基因分配给多个模块。鉴于越来越多的证据表明基因调控是高度组合的，基因产物可以参与多种途径，模块之间的重叠问题尤其成问题。3）忽略了基因之间的调节关系。由于靶基因表达的变化可以至少部分地由转录因子表达的变化来解释，聚类方法不能很好的包含这类信息。

因此，人们已经开发了几种可选的模块检测方法来弥补这三个缺陷。分解方法和双聚类法试图处理局部共表达和重叠。这些方法不同于聚类，因为它们允许模块内的基因不需要在所有生物样品中共同表达，但是样品可以在一定程度上影响模块的表达(分解方法)或根本不影响模块的表达(双聚类方法)。另外两种替代方法，直接网络推理法(direct NI )和迭代网络推理法（iterative NI），使用表达数据来另外模拟基因之间的调节关系。

本研究目的及意义：

由于转录组学中模块检测的重要性和现有方法的丰富性，必须根据客观基准评估现有和新的方法。本研究有两个目的，第一是要概述当前模块检测方法的特点和性能，以指导生物学家进行选择。第二，提出一个基准策略，用来比较新的方法和现有的技术的异同。

研究结果：

1）模块检测方法评估的工作流程

评估过程的结构如图1所示，研究人员对来自大肠杆菌、酵母、人等公开的基因表达数据进行模块检测方法评估。通过将观察到的模块与一组已知模块进行比较，对不同的方法进行评分。

图1、评估方法概述。a）本次评估使用的九个不同数据集。b) 研究者使用三种不同的模块定义从已知的调节网络中提取已知的模块，用于大肠杆菌、酵母和合成数据的评估。c) 为了避免参数过度拟合特定数据集的特征，研究者首先使用网格搜索优化每个数据集上的参数，然后使用一个数据集上的最优参数(训练分数)来评估方法在另一个数据集上的性能(测试分数)。d) 评价了42种模块检测方法，可分为5类:聚类法、双聚类法、直接网络推理法、分解法和迭代网络推理法。e) 为了评估人类数据，研究者比较了每个目标调节因子在至少一个模块中的丰富程度。f）研究者在评估中使用了四种不同的调控网络，每个网络都是根据不同类型的数据生成的。

表1、本研究中涉及到的42种模块检测方法

2）评估结果

研究者使用表1所述方法评估了涵盖所有5种方法(聚类、分解、双聚类、直接NI和迭代NI )的总共42种模块检测算法。总的来说，分解方法检测最符合基因调节网络中已知模块结构的模块(图2a )。令人惊讶的是，双聚类法、直接NI法和迭代NI法都没有优于聚类法，尽管理论上它们应该通过允许重叠、模拟转录调节和/或寻找局部共表达效应而提供若干优点(图2b )。

图2、基于基因调节网络中观察到的模块和已知模块一致性的42种模块检测方法的总体性能评估结果。这些方法可分为五类:聚类、分解、双聚类、直接网络推理(直接NI )和迭代网络推理(迭代NI )方法。聚类和双聚类方法进一步分为多个子类别。

图3、使用四种不同聚类有效性指数和两种基于功能富集度量的自动参数估计对顶部模块检测方法的性能的影响。图中显示了在对每个类别的顶级模块检测方法的数据集和模块进行平均后，测试分数在参数估计(使用基于蓝色功能富集的度量或红色-橙色聚类有效性指数)之后的变化。

大多数聚类方法的一个重要参数是比较基因表达谱距离或相似性。基因表达数据最常用的测量标准无疑是皮尔逊相关系数，该系数测量两个表达谱之间的线性依赖程度，而不管绝对表达水平的差异。但一些研究者对这种方法也提出了质疑，主要基于三个方面: (1)它忽略了基因之间的反向关系，(2)它不能获得非线性关系，以及(3)它对异常值和偏斜分布检测不够强大。因此，本文也提出了若干替代措施，试图解决其中一些限制。为了研究这些备选方案是否能够改进模块检测，研究者使用15种度量方法。令人惊讶的是，没有一个可选的相似性度量能够改进四种顶级聚类方法中的任何一种性能。进一步研究发现，这些替代措施确实可以检索已知的共调节基因，但其排序低于皮尔逊相关性。然而，当比较皮尔逊相关性和备选测量之间的前10 %基因对时，有更多已知的共调节基因对可以除去。

接下来研究人员对样本数量进行了检测，探讨表达式数据集中样本数量对每个类别中顶级模块检测方法相对性能的影响。尽管如预期的那样，每种方法的性能都随着数据集大小的减小而下降，但每种方法的下降幅度和时间差异很大。值得注意的是，与其他方法(图4 )相比，基于ICA的分解方法似乎对数据集中的样本数量更加敏感。另一方面，随着样本数的减少，遗传云母(迭代NI方法A )和GENIE3 (直接NI方法A )等几种基于网络推理的方法的性能保持相对稳定。这表明，尽管现有的矩阵分解方法在大数据集上具有较好的性能，但当考虑较少数量的生物条件时仍有不足。

图4、样本数量对顶部模块检测方法性能的影响。图中显示了不同随机采样数量下所有数据集和模块检测方法的平均训练分数(左)和测试分数(右)。

图5、基因表达数据中模块检测的实践指南。模块检测在基因表达数据中有三个主要应用（a)。对于每个应用，本文建议使用不同的模块检测方法(b)，这反过来影响参数的估计方式(c)、模块的可视化方式(d)，以及模块的功能解释方式(e)。

最后，研究者提出了一个评估模块检测方法的通用框架，并利用该框架对基因表达数据的最新模块检测方法进行了首次全面评估。基于该评估，研究者分析了模块检测的几个方面，例如方法的选择和参数估计，并结合结果，提出了进一步开发这些方法的若干指导方针及实践指南（图5）。

具体说来，基因表达数据中的模块检测可以起多种作用，不同的方法更适合于特定的作用(图5a，b )。由于非重叠聚类方法易于可视化和解释，可以快速生成数据集的全局概览，揭示数据集中不同生物样本的主要表达方式和功能效果。实验结果表明，FLAME、WGCNA、Affinity Propagation聚类、马尔可夫聚类( MCL )和谱聚类等方法特别适合于这种分析，在大多数数据集上的聚类效果优于其他聚类方法。然而，由于聚类方法不能检测局部共表达效应，它们可能会错过相关模块或从模块中排除重要基因。与此相一致的是，研究者发现基于ICA的分解方法能够更好地跨数据集一致地恢复已知模块，使得准确度提高最多。

方法的选择影响参数估计、可视化和功能解释等后续步骤(图5c-e)。对于参数估计，研究者发现聚类有效性指数，特别是Davis-Bouldin和Kim-Ramakrishna指数，足以估计大多数顶级聚类方法的参数。然而，这些度量在替代模块检测方法上的性能通常比随机选择参数差。对于这些方法，特别是双团簇、分解和直接NI，研究者发现基于功能富集的测量提供了更好的选择(图5c)。模块的可视化类型也在很大程度上取决于方法的选择。可以通过向可视化添加附加注释以改进模块的解释，可以使用若干工具和数据库从功能上解释模块，分析模块内丰富的生物功能和途径，或发现模块是否与某些疾病有关。

结语：

重叠和局部共表达模块的检测一直是转录组学研究中的一个长期挑战。尽管为发展这些方法作出了巨大努力，但由于若干实际挑战，它们在实际生物数据上的应用受到阻碍。首先，重叠和局部共表达模块的可视化和解释更加困难。例如，并不直接显示为什么某些基因被分组在模块中。此外，分解和双聚类方法通常具有多个参数，这些参数需要在数据集上进行调整，并且会影响生物解释。因此，仅使用表达式矩阵本身的双聚类和分解方法的参数估计仍然是一个需要探讨的问题。本研究表明，性能最好的分解方法对数据集中的样本数量更敏感，并且在样本数量有限的情况下优于聚类方法。在这些方面(可视化、参数估计和数据要求)的改进将使先进的模块检测方法在生物研究中获得更大应用。

304am永利集团_永利集团304am官方入口

新闻媒体

【昊阅读】基因表达数据模块检测方法综合评价

发稿时间：2018-03-28来源：天昊生物

相关链接

核心产品

联系方式