0%

Neighbor Joining是一种bottom-up的聚类方法,常被用于**系统发育树(phylogenetic tree)*的构建当中。 Naruya SaitouMasatoshi Nei在1987年将NJ法发表在Molecular Biology and Evolution*中,至今已有超5万的引入量,实在是生物信息学中超重量级的文章。

The neighbor-joining method: a new method for reconstructing phylogenetic trees

Read more »

在做基因差异表达分析时,经常会用DESeq2这个包,但一直没有深究其分析的统计流程。因此,在这里记录一下DESeq2校正基因表达的方法 – 比率中值法 (Median of ratios)。

Read more »

最近在看差异分析当中原始read counts是如何被校正的,自然就不会放过差异分析的经典之一 —— edgeR.

Read more »

在高通量测序数据的分析中,仅仅靠raw read counts描述基因的表达量是远远不够的。受限于测序过程中的技术因素影响,read counts对于基因表达量的反映存在一定偏好(bias)。因此,Mortazavi等人提出了RPKM/FPKM的方法对read counts进行normalization以使基因表达量的比较可以在不同文库间进行。随后,Mortazavi等人更是提出了考虑转录本长度分布情况的TPM方法。本文将会简要说明为什么我们要对read counts进行normalization,以及RPKM,FPKM,TPM是什么,并通过一个简单地例子阐述为什么TPM才是被更多人认同的方法。

Read more »

经典的转录组差异分析通常会使用到三个工具limma/voom, edgeRDESeq2, 今天我们同样使用一个小规模的转录组测序数据来演示edgeR的简单流程。

Read more »

经典的转录组差异分析通常会使用到三个工具limma/voom, edgeRDESeq2。今天我们就通过一个小规模的转录组测序数据来演示DESeq2的简单流程。

Read more »

本文写于观看生信技能树公众号(vx: biotrainee)的七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步)一文后,感觉生信技能树优秀学徒的工作十分吸引人,就自己动手复现了一次。

Step 00 问题概述

本文的任务是全代码复现一篇paper,标题为 :Co-expression networks revealed potential core lncRNAs in the triple-negative breast cancer. PMID:27380926

ref: 生信技能树–七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步)

我们复现的文章是对8名乳腺癌的患者的转录组测序数据的分析。复现测序的流程恐怕不太现实,但是我们可以通过TCGA数据库中的肿瘤数据复现文章的数据分析流程。

本文的分析流程包括:

  • 下载数据

  • 数据清洗

  • 质量控制

  • 差异分析

  • 注释mRNA,lncRNA

  • 富集分析

至于WGCNA分析在本文就不再复现了,有兴趣的同学也可以查阅生信技能树的文章七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)

Read more »

学习最好的方式就是分享。

最近看到一个在R上进行的RNA-seq 分析流程,恰好自己也有过RNA-seq分析的经验,所以就想结合以前的经验分享这个流程出来。
P.S. RNA-seq 分析有多种流程,本文仅是举出其中一个例子,抛砖引玉。

本文将要介绍的是由Combine Australia所提供的一个针对有参基因组的基因差异表达分析流程。

Read more »

在R语言的可视化工具中,ggplot2无疑是一款简洁、强大、优雅的工具。本文简单介绍ggplot2的用法

Read more »

最近学习到Linux的管道符 | 可以将左侧的输入传递给右侧的函数处理,这种从左到右的函数处理方式看着就让人很舒服,想起R中其实也有这种类似的管道符 – %>% 。因此,就在这篇文章谈谈%>%的基本特点和包含它的包magrittr

magrittr - Ceci n’est pas un pipe.

Ceci n’est pas un pipe 是一句法语,翻译过来的意思是 “这不是管道符”。

Read more »