关于readsCount、RPKM/FPKM、RPM、TPM的理

作者: 模拟数据X | 来源:发表于2018-09-12 16:44 被阅读351次

关于readsCount、RPKM/FPKM、RPM、TPM的理
RPKM,FPKM,RPM,TPM的区别
Counts FPKM RPKM TPM CPM 的转化
RNA-seq的counts值，RPM, RPKM, FPKM,
【生信技能树】2020-01-02作业
RPM(CPM)/RPKM/FPKM/TPM
totpm.pl
06高通量测序-RPKM,FPKM,and TPM
RPKM、FPKM、TPM计算公式
FPKM，RPKM，TPM区分--2020-04-20

背景

feature

定义：基因组上对具有不同性质区域的定义 (例如：gene/exon/intron/miRNA等)。
优点：利于分类整理结果。

两类测序bias

长度bias：相同表达丰度的转录本，往往会由于其基因长度上的差异，导致测序获得的Read（Fregment）数不同。总的来说，越长的转录本，测得的Read（Fregment）数越多。
测序深度bias：由测序文库的不同大小而引来的差异。即同一个转录本，其测序深度越深，通过测序获得的Read（Fregment）数就越多。
下面的计算以exon为例。

1、几种丰度计算方法

reads Count

定义：高通量测序中比对到exon上的reads数。可使用featureCount等软件进行计算。
优点：可有效说明该区域是否真的有表达及真实的表达丰度。能够近似呈现真实的表达情况。有利于实验验证。
缺点：由于exon长度不同，难以进行不同exon丰度比较；由于测序总数不同，难以对不同测序样本间进行比较。

RPKM/FPKM

定义：RPKM: Reads Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)；FPKM: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
公式：RPKM = (ExonMappedReads * 10^9 ) / (TotalMappedReads * ExonLength)
$公式(1):RPKM=\frac{ExonMappedReads * 10^9}{TotalMappedReads* ExonLength}$
上述公式可从下面公式推导而出：
$公式(2): RPKM=\frac{ExonMappedReads / ExonLength * 10^9}{TotalMappedReads/GenomeLength}$
解释：ExonMappedReads即为比对到该exon上的reads count； TotalMappedReads即为比对到基因组上所有reads count的总和；ExonLength 为该Exon的长度；GenomeLength即为基因组全长，因为是相同基因组，所以该数值可消除。
优点：tophat-cufflinks流程固定，应用范围广。理论上，可弥补reads Count的缺点，消除样本间和基因间差异。
讨论：有人说RPKM/FPKM标准化特别不合理，看着是个大牛YellowTree。公式2中，TotalMappedReads/GenomeLength为测序深度，ExonMappedReads / ExonLength可以简单的认为是该Exon上的“测序深度”。两者相除，就得出该Exon依据测序深度而进行的标准化，那么因Exon长短、测序深度造成的样本间造成的偏差，都可以消除。因一般是相同物种，基因组一般相同，所以公式2换算并消去GenomeLength，就成为公式1的形式了。不知道哪里错了，斗胆提出质疑：RPKM/FPKM怎么就不能消除两种类型的bias？不过有论文陈述说RPKM的结果难以消除组间测序造成的差异，可能未采用比对到基因组上所有的reads数，而是采用了比对到所有Exon的reads数作为TotalMappedReads吧。不是很确定。
FPKM：与RPKM计算过程类似。只有一点差异：RPKM计算的是reads，FPKM计算的是fragments。single-end/paired-end测序数据均可计算reads count，fragments count只能通过paired-end测序数据计算。paired-end测序数据时，两端的reads比对到相同区域，且方向相反，即计数1个fragments；如果只有单端reads比对到该区域，则一个reads即计数1个fragments。所以fragments count接近且小于2 * reads count。

RPM

定义：RPM/CPM: Reads/Counts of exon model per Million mapped reads (每百万映射读取的reads)
公式：RPM = ExonMappedReads * 10^6 /TotalMappedReads
$RPM=\frac{ExonMappedReads * 10^6}{TotalMappedReads}$
优点：利于进行样本间比较。根据比对到基因组上的总reads count，进行标准化。即：不论比对到基因组上的总reads count是多少，都将总reads count标准化为10^6。
缺点：未消除exon长度造成的表达差异，难以进行样本内exon差异表达的比较。

TPM

定义：TPM: Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
公式： $TPM=\frac{Ni/Li * 10^6}{sum(N1/L1+N2/L2 + ... + Nn/Ln)}$
解释：Ni为比对到第i个exon的reads数； Li为第i个exon的长度；sum(N1/L1+N2/L2 + ... + Nn/Ln)为所有 (n个)exon按长度进行标准化之后数值的和。
计算过程：首先对每个exon计算Pi=Ni/Li，即按长度对reads count进行标准化；随后计算过程类似RPM (将Pi作为正常的ExonMappedReads，然后以RPM的公式计算TPM)。
优点：首先消除exon长度造成的差异，随后消除样本间测序总reads count不同造成的差异。
缺点：因为不是采用比对到基因组上的总reads count，所以特殊情况下不够准确。例如：某突变体对exon造成整体影响时，难以找出差异。

2、相互关系

评价：以上几种计算exon表达丰度的方法，差异不是非常大。如果结果是显著的，那么采用上面任一计算方法大多均可找出显著结果。但是当表达风度差异不是那么显著时，不易区分不同类别，需要根据实际需要选择对应的标准化方法。
注意：以上TotalMappedReads推荐首选比对到基因组上的总reads数，而不是比对到exon或者gene上总reads数。这同样需要根据实际情况而确定。

参考：
科学网-江纯阶
 简书-jlyq617

关于readsCount、RPKM/FPKM、RPM、TPM的理
背景 feature 定义：基因组上对具有不同性质区域的定义 (例如：gene/exon/intron/miRNA...
RPKM,FPKM,RPM,TPM的区别
浅谈RPKM,FPKM,RPM,TPM的区别在RNA-Seq的分析中，我们常用RPKM、FPKM和TPM作为转录...
Counts FPKM RPKM TPM CPM 的转化
一、什么是RPKM、 FPKM、TPM、CPM RPKM, FPKM and TPM, clearly expla...
RNA-seq的counts值，RPM, RPKM, FPKM,
RNA-seq的counts值，RPM, RPKM, FPKM, TPM 的异同现在常用的基因定量方法包括：RP...
【生信技能树】2020-01-02作业
1. 读入数据： 2.表达矩阵探究参考：RNA-seq的counts值，RPM, RPKM, FPKM, TPM...
RPM(CPM)/RPKM/FPKM/TPM
RPM/CPM RPM/CPM: Reads/Counts of exon model per million m...
totpm.pl
perl ReadsCount2rpkm.tpm.pl ../raw_reads/TCGA_BLCA_RESM_s...
06高通量测序-RPKM,FPKM,and TPM
RPKM,FPKM,and TPM RNA-seq标准我们过去使用RPKM(Reads Per Kilobase...
RPKM、FPKM、TPM计算公式
基因表达量的衡量指标有：RPKM、FPKM、TPM。 RPKM：Reads Per Kilobase Millio...
FPKM，RPKM，TPM区分--2020-04-20
FPKM，RPKM，TPM区别以及相互之间的转换 FPKM--fragments per kilobase mil...

关于readsCount、RPKM/FPKM、RPM、TPM的理

背景

feature

两类测序bias

1、几种丰度计算方法

reads Count

RPKM/FPKM

RPM

TPM

2、相互关系

相关文章

关于readsCount、RPKM/FPKM、RPM、TPM的理

RPKM,FPKM,RPM,TPM的区别

Counts FPKM RPKM TPM CPM 的转化

RNA-seq的counts值，RPM, RPKM, FPKM,

【生信技能树】2020-01-02作业

RPM(CPM)/RPKM/FPKM/TPM

totpm.pl

06高通量测序-RPKM,FPKM,and TPM

RPKM、FPKM、TPM计算公式

FPKM，RPKM，TPM区分--2020-04-20

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

科研博士

1 生物信息学

生物信息学

RNA 转录组学Transcriptomics

生物信息学

生信基础知识

生物学知识

3_DATA_CLEANING