0%

问题描述

最近用ggplot画分面图的时候碰到一个问题。在分面的各个x轴上变量数目不一样,导致画出来的每个分面中的图大小也不一样。

Read more »

“The greatest value of a picture is when it forces us to notice what we never expected to see.” - John Tukey

从油画当中汲取了一些配色方案,写成了一个R包 paintingr (https://github.com/thereallda/paintingr)

欢迎使用R画图的朋友给点意见和建议!

Read more »

在评估不同软件性能的时候,我们会需要模拟一些数据。由于模拟数据当中的情况是已知的,例如差异表达基因的数目。因此,通过比较不同软件在模拟数据上的效果,我们可以获得软件的量化性能指标,例如灵敏度、特异性和准确度等。

本文根据 DESeq2 文章中的方法记录如何进行简单的基于负二项分布(Negative Binomial distribution)模拟RNA-seq基因表达数据。

Read more »

通常,在计算TPM或RPKM/FPKM等基因表达量时,除了基因的counts信息外,我们还需要知道基因的长度。这里所用到的基因长度并不是某个基因在基因组上的完整长度。在基因表达分析中,“基因长度”通常指的是成熟转录本的长度,也就是无内含子的碱基序列。因此,单纯地使用基因的染色体起始和结束坐标相减并不能返回转录本的长度信息。目前,对于基因长度有多种定义,包括:

1. 基因最长转录本;

2. 多个转录本长度的平均值;

3. 非重叠外显子长度之和

4. 非重叠CDS序列长度之和

本文介绍使用gtf文件在R中获取基因长度(非重叠外显子长度之和)的方法

Read more »

最近看到Fly Cell Atlas (FCA) 公布果蝇的多个组织的单细胞核转录组测序数据,虽然FCA组织提供了多个在线平台(例如SCope)进行非常方便的可视化和多种分析。然而,由于网速的原因,还是希望将数据下载到本地进行分析。

Read more »

最近想要可视化样本间的相关性,但又不满足于常规的相关性热图。因此,就注意到GGally包中的ggpairs函数,可以方便地实现多方面的相关性可视化。

Read more »

问题描述

使用ggplot2分面绘图时,分面的标签与分面变量是一样的。但有时候用于分面的变量名不能满足我们对标签的需求,这个时候应该采取什么样的方法替换呢?

Read more »

问题描述

有时候我们想知道与某一个GO注释分类相关的基因有哪些,那么我们就需要一种方法将注释到这个GO term所有的基因提取出来

Read more »