前言
全外显子测序中重要的步骤就是遗传分析,可以针对家系或者散发样本,按照相应的遗传模型来筛选候选基因。但是如果他们亲缘关系有误,比如无关样本中混入有血缘关系的样本,或者理论上有血缘关系的样本实际上没有关系等等都必然会导致后续遗传分析假阳性或者假阴性。样本亲缘关系不对通常可能是由以下几个原因导致:1. 取样有问题2.实验过程中样本搞错3.分析时样本相互标错。在外显子测序分析中,为了避免以及及时发现这些错误,我们可以使用KING软件,基于样本的突变检测结果,对他们进行亲缘关系鉴定。
功能
基于基因型数据,计算样本间亲缘关系系数,可以根据相应的系数范围来判断样本之间的亲缘关系。 软件下载链接:King http://people.virginia.edu/~wc9c/KING/Download.htm ; Plink2 https://www.cog-genomics.org/plink/2.0/ 可根据需要下载相应的版本。
使用方法
1. 文件准备
全外显子测序结果的vcf格式压缩文件
2. 运行
1) 二进制文件转换,此步骤需要plink软件完成。 “Plink2 --vcf A.vcf.gz --make-bed --out A”结果生成A.bed , A.bim以及A.fam 。
2) 关系系数计算 “King -b A.bed --kindship --prefix relationShip ”
结果
FID 表示family ID, ID 是个体ID,两者组合可以表示一个唯一个体。Kindship是亲缘关系系数,可用于判断两个个体间的亲缘关系。
结果可视化
首先需要将上一步骤生成的文件进行转换,手动转换成如下图矩阵的形式,并保存成文本格式,这里定义成“relationship.txt”用于后面绘图。
亲缘关系系数绘图使用的是R 的pairs() 函数,具体如下:
relation=read.table("relationship.txt",sep="t",header=T,row.name=1,check.names=F)
relation=as.matrix(relation)
relation
ZD MU FUZD 1 0.2525 0.2498
MU NA 1.0000 0.0010
FU NA NA 1.0000
pdf("relationship.pdf")
panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...){usr <- par("usr"); on.exit(par(usr)); par(usr = c(0, 1, 0, 1)); z=x[!is.na(y)]; txt=as.numeric( sprintf( "%0.4f", z[length(z)] ) ); if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt); color=1; if(txt>=0.354) color=2; if(txt>=0.177 && txt<0.354) color=3; if(txt>=0.0884 && txt<0.177) color=4; if(txt>=0.0442 && txt<0.0884) color=5; text(0.5, 0.5, txt, cex = cex.cor,col=color)}
pairs(relation,lower.panel = NULL,font.labels = 2,main="Sample Relationship (Based On King software)",upper.panel = panel.cor)
info=c(">0.354 = duplicate/MZ twinn", "[0.177, 0.354] =, 1st-degreen", "[0.0884, 0.177] = 2nd-degreen", "[0.0442, 0.0884] = 3rd-degreen")
mtext(info,side=1,adj=0,cex=1.3,line=c(-4,-2,0,2),col=c(2,3,4,5))
dev.off()
null device
图中为三口之家,MU,FU分别为ZD的母亲与父亲,母亲与父亲之间无血缘关系
duplicate/MZ twin : 重复个体或者同卵双胞胎。关系判断阈值[>-0.354]
1st-degree(一级亲属):一个人的父母、子女以及亲兄弟姐妹。关系判断阈值[0.177-0.354]
2nd-degree(二级亲属):一个人和他的叔、伯、姑、舅、姨、祖父母、外祖父母。关系判断阈值[0.0884-0.177]
3rd-degree(三级亲属):表兄妹或堂兄妹。关系判断阈值[0.0442-0.0884]
参考文献:
Manichaikul A, Mychaleckyj JC, Rich SS, Daly K, Sale M, Chen WM (2010) Robust relationship inference in genome-wide association studies. Bioinformatics 26(22):2867-2873
往期相关链接:
1、R基础篇
excel不熟练怎么办,R来帮您(一)数据分类汇总;如何使用Rstudio练习R基础教程;2、R进阶
【绘图进阶】之交互式可删减分组和显示样品名的PCA 图(三);
3、数据提交
3分钟学会CHIP-seq类实验测序数据可视化 —IGV的使用手册;
10分钟搞定多样性数据提交,最快半天内获取登录号,史上最全的多样性原始数据提交教程;
20分钟搞定GEO上传,史上最简单、最详细的GEO数据上传攻略;
4、表达谱分析
表达谱分析(二)通路富集分析和基因互作网络图绘制;如何对GEO数据进行差异分析;5、医学数据分析
【WGS服务升级】人工智能软件SpliceAI助力解读罕见和未确诊疾病中的非编码突变;