上一讲,我们使用DESeq2对下载的GEO数据进行差异分析,可以获取差异基因列表。那么,在得到差异基因后,我们还可以做哪些分析呢?接下来,小编带着大家使用在线网址进行PPI网络分析和基因富集分析(GO和KEGG富集),网址:https://string-db.org/
一获取差异基因列表
打开上一节生成的Differential_Expression_Genes_Summary.csv文件,统计type类型中up和down的基因数为3157个,PPI string最多允许分析2000个基因,因此我们需要对数据进行下一步过滤,我们选择过滤条件为 padj <0.05 , 筛选到1245个基因。
提取基因名
将筛选到的1245个基因复制到GSE132287_Gene-count-table.xls文件中的空白列,使用VLOOKUP函数获取我们要返回的值,如下图所示:P2单元格是我们待查找值,A:B是数据表,其中A列要包含待查找值,列序数是返回值所在的列数,匹配条件通常选择精确匹配FALSE,可以简写为数字0 。整个函数的意思是:查找P2单元格在A列中所在的行,返回该行B列的值。
如下图所示,通过vlookup函数,我们返回gene_name数目1245个,用于后续PPI网络分析。
二PPI网络分析
1. 初步分析打开PPI网络网址:https://string-db.org/ ,点击Multiple proteins, 在List Of Names 方框内粘贴1245个基因名,Organism 下拉菜单选择human,点击Search 开始分析。
2. 富集分析结果过滤
点击Analysis,查看分析结果。
下载kegg富集分析结果
下载结果打开,如下图所示:
3、筛选感兴趣的通路,重新做PPI分析
我们选择P值最小的通路 hsa04668 :TNF signaling pathway ,复制对应的G列的44个基因,使用Notepad++的替换功能,将',' 替换成 'n', 生成基因列表,用于PPI重新分析。
导入44个基因,重新分析,分析完成后,看到在网页上看到PPI网络图。
往期相关链接:
1、R基础篇
2、R进阶
【绘图进阶】之交互式可删减分组和显示样品名的PCA 图(三);
3、数据提交
3分钟学会CHIP-seq类实验测序数据可视化 —IGV的使用手册;
10分钟搞定多样性数据提交,最快半天内获取登录号,史上最全的多样性原始数据提交教程;
20分钟搞定GEO上传,史上最简单、最详细的GEO数据上传攻略;
4、表达谱分析
5、医学数据分析
【WGS服务升级】人工智能软件SpliceAI助力解读罕见和未确诊疾病中的非编码突变;
隐性疾病trio家系别忽视单亲二倍体现象——天昊数据分析助力临床疾病诊断新添UPD(单亲二倍体)可视化分析工具;
【昊工具】Oh My God! 太好用了吧!疾病或表型的关键基因查询数据库,我不允许你不知道Phenolyzer;
如果您对本文案介绍的方法或代码有疑问,
请扫码添加QQ群沟通
【本群将为大家提供】
分享生信分析方案
提供数据素材及分析软件支持
定期开展生信分析线上讲座
QQ号:1040471849