整理ChIP-seq / CUT & Tag 分析时用到的工具。本文只对使用的工具用法进行简单介绍。
当我们需要评估ChIP-seq类测序数据的相关性时,deeptools 是一个可行且方便的工具。它提供了一系列方便的命令对高通量测序数据进行分析。本文先集中介绍deeptools中计算ChIP-seq样本间相关性所用到的命令,其余的命令有机会再一一介绍。
multiBamSummary/multiBigwigSummary
multiBamSummary
/ multiBigwigSummary
两个命令可以分别计算 bam/bw 文件在基因组或特定区域测序覆盖度。
下面的命令将基因组以bin size (eg: 500bp) 为单位分割,计算bam文件在基因组每个bins上的read counts,并以.npz
的格式输出,供后面作图使用。另外,使用参数--outRawCounts
将read counts保存到文件readCounts.tab
中
1 | multiBamSummary bins --bamfiles file1.bam file2.bam -o results.npz -bs <bin size> --outRawCounts readCounts.tab |
Example
使用ENCODE ChIP-Seq 数据作为示例
1 | $ deepTools2.0/bin/multiBigwigSummary bins \ |
或者对bw 文件进行计算
1 | multiBigwigSummary bins -b file1.bw file2.bw -o results.npz |
plotCorrelation
plotCorrelation
命令根据multiBamSummary
/ multiBigwigSummary
输出的.npz
文件计算样本之间的Pearson
or Spearman
相关系数,并进行热图或散点图的绘制。
还是以上面ENCODE data为例
使用热图展示样本间相关性
1 | $ deepTools2.0/bin/plotCorrelation \ |
使用散点图展示样本间相关性,图内每个点代表一个bin,横纵坐标表示相应样本的bins内的counts数目
1 | $ deepTools2.0/bin/plotCorrelation \ |
-in
:指定输入的.npz
文件 (由multiBamSummary
/ multiBigwigSummary
输出)--corMethod
:指定相关系数,Pearson
or Spearman
--skipZeros
:跳过数据中含0的行计算相关系数--whatToPlot
:绘制的图的种类,heatmap
or scatterplot
-o
:图片输出的名称--outFileCorMatrix
:输出相关系数矩阵
以上就是使用deeptools进行ChIP-seq样本间相关性计算的简单整理,关于计算相关系数之间的normalization和相关系数的选择在此不作展开,以后有机会再写一篇来谈吧。
Ref:
https://deeptools.readthedocs.io/en/develop/content/tools/multiBamSummary.html
https://deeptools.readthedocs.io/en/develop/content/tools/multiBigwigSummary.html
https://deeptools.readthedocs.io/en/develop/content/tools/plotCorrelation.html
完。