Smart-seq是由路德维格癌症研究所的 Rickard Sandberg实验室所开发的一套在全转录组范围进行单细胞RNA测序 (scRNA-seq) 的方法。Smart-seq因为以全长mRNA建库,所以对转录本的测序覆盖度也有所上升。Smart-seq2是由Picelli等人从Smart-seq中改良而来(Picelli et al., 2013) (Picelli et al., 2014)。本文将从Smart-seq2的原理、优点和缺点来为大家介绍这项scRNA-seq技术。
理论-Neighbor Joining建树浅析
Symbols count in article: 1.9k Reading time ≈ 2 mins.
Neighbor Joining是一种bottom-up的聚类方法,常被用于**系统发育树(phylogenetic tree)*的构建当中。 Naruya Saitou 和 Masatoshi Nei在1987年将NJ法发表在Molecular Biology and Evolution*中,至今已有超5万的引入量,实在是生物信息学中超重量级的文章。
理论-DESeq2-normalization
Symbols count in article: 3.2k Reading time ≈ 3 mins.
在做基因差异表达分析时,经常会用DESeq2
这个包,但一直没有深究其分析的统计流程。因此,在这里记录一下DESeq2
校正基因表达的方法 – 比率中值法 (Median of ratios)。
理论-edgeR-TMM-normalization
Symbols count in article: 5.5k Reading time ≈ 5 mins.
最近在看差异分析当中原始read counts是如何被校正的,自然就不会放过差异分析的经典之一 —— edgeR
.
理论-简述RPKM-FPKM-AND-TPM
Symbols count in article: 4.7k Reading time ≈ 4 mins.
在高通量测序数据的分析中,仅仅靠raw read counts描述基因的表达量是远远不够的。受限于测序过程中的技术因素影响,read counts对于基因表达量的反映存在一定偏好(bias)。因此,Mortazavi等人提出了RPKM/FPKM的方法对read counts进行normalization以使基因表达量的比较可以在不同文库间进行。随后,Mortazavi等人更是提出了考虑转录本长度分布情况的TPM方法。本文将会简要说明为什么我们要对read counts进行normalization,以及RPKM,FPKM,TPM是什么,并通过一个简单地例子阐述为什么TPM才是被更多人认同的方法。
edgeR-简单的转录组差异表达分析
Symbols count in article: 5.7k Reading time ≈ 5 mins.
经典的转录组差异分析通常会使用到三个工具limma/voom
, edgeR
和DESeq2
, 今天我们同样使用一个小规模的转录组测序数据来演示edgeR
的简单流程。
DESeq2-简单的转录组差异表达分析
Symbols count in article: 7.2k Reading time ≈ 7 mins.
经典的转录组差异分析通常会使用到三个工具limma/voom
, edgeR
和DESeq2
。今天我们就通过一个小规模的转录组测序数据来演示DESeq2
的简单流程。
R-TCGA数据挖掘复现之BRCA
Symbols count in article: 13k Reading time ≈ 12 mins.
本文写于观看生信技能树公众号(vx: biotrainee)的七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步)一文后,感觉生信技能树优秀学徒的工作十分吸引人,就自己动手复现了一次。
Step 00 问题概述
本文的任务是全代码复现一篇paper,标题为 :Co-expression networks revealed potential core lncRNAs in the triple-negative breast cancer. PMID:27380926
ref: 生信技能树–七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步)
我们复现的文章是对8名乳腺癌的患者的转录组测序数据的分析。复现测序的流程恐怕不太现实,但是我们可以通过TCGA数据库中的肿瘤数据复现文章的数据分析流程。
本文的分析流程包括:
下载数据
数据清洗
质量控制
差异分析
注释mRNA,lncRNA
富集分析
至于WGCNA分析在本文就不再复现了,有兴趣的同学也可以查阅生信技能树的文章七步走纯R代码通过数据挖掘复现一篇实验文章(第七步WGCNA)
R-用R进行RNA-seq数据分析
Symbols count in article: 20k Reading time ≈ 18 mins.
学习最好的方式就是分享。
最近看到一个在R上进行的RNA-seq 分析流程,恰好自己也有过RNA-seq分析的经验,所以就想结合以前的经验分享这个流程出来。
P.S. RNA-seq 分析有多种流程,本文仅是举出其中一个例子,抛砖引玉。
本文将要介绍的是由Combine Australia所提供的一个针对有参基因组的基因差异表达分析流程。
R-ggplot2简介
Symbols count in article: 5.6k Reading time ≈ 5 mins.
在R语言的可视化工具中,ggplot2
无疑是一款简洁、强大、优雅的工具。本文简单介绍ggplot2
的用法