应用统计年鉴

定量转录表达水平的碱基对水平RNA序列读取计数的反褶积

韩武玉柱

全文:拒绝访问(未检测到订阅)

对不起,但我们无法向您提供本文的全文,因为我们无法将您标识为订户。如果您有个人订阅此日志,然后请登录。如果您已经登录,然后您可能需要更新您的配置文件来注册订阅。阅读有关访问全文的详亚博KG百家乐细信息

摘要

RNA序列已成为分析生物体转录物的首选方法。特别地,它的目的是使用短核苷酸序列或RNA序列实验产生的短读取来量化转录物的表达水平。在实际实验中,抄本的标签,从中生成每个短读,失踪,短读被映射到基因组而不是转录组。因此,转录表达水平的量化是一个间接的统计推断问题。

在本文中,我们建议使用单个的外显子碱基对作为观测单元,此外,在转录和基因水平对所有碱基对的非零计数和零计数进行建模。在成绩单级别,假设了双组分泊松混合分布。由此产生了基因水平上泊松混合分布模型的卷积。利用最大似然估计法结合EM算法对模型参数进行估计,量化转录表达水平。我们将建议的方法称为CPM Seq。仿真研究和实际数据都证明了CPM序列的有效性。表明CPM序列比袖扣产生更准确和一致的量化结果。

文章信息

来源
安。APPL斯达。,第10卷,数字3(2016年)1195-1216。

日期
收到日期:2013年10月
修订日期:2015年10月
欧几里得项目首次上市日期:2016年9yaboH5月28日

指向此文档的永久链接
//www.jlarabs.com/euclid.aoas/1475069505

数字目标标识符
内政部:10.1214/16-AOAS906

数学评论数
MR35532

Zentralblatt数学标识符
06775264

关键词
RNA序列 转录组分析 有限泊松混合模型 卷积

引用

吴汉族;朱于。反褶积碱基对水平RNA序列读取计数量化转录表达水平。安。APPL斯达。10(2016),不。3.1195—1216。DOI:10.1214/16-AOAS906。//www.jlarabs.com/euclid.aoas/1475069505


出口引文

工具书类

  • 金KF.江H.林L.,邢是的。WongWH.(2010)。利用拼接图检测成对末端RNA序列数据的拼接连接。核酸研究 三十八4570—4578。
  • GriebelT.察赫尔B.,RibecaP.Rainerie.拉克罗伊斯五、奎格,R.SammethM(2012)。用流量模拟器模拟通用RNA序列实验。核酸研究 四十10073—10083。
  • 胡M.朱Y.泰勒,JMG.线路接口单元,JS.秦Z.S.(2012)。利用泊松混合效应模型定量分析RNA序列转录水平基因表达。生物信息学 二十八63—68。
  • 基姆,H.毕Y.帕尔S.GuptaR.DavuluriR.v.诉(2011)。异构体:使用来自mRNA序列数据的加权非负最小二乘估计异构体水平的基因表达。BMC生物信息学 十二305。
  • 兰米德B.,特拉普内尔C.流行音乐,MSalzbergS.L.(2009)。超快和记忆效率的人类基因组短DNA序列的校准。基因组生物学 R25。
  • 锂,B.杜威C.n.名词(2011)。rsem:从有或无参考基因组的RNA序列数据中精确的转录定量。BMC生物信息学 十二323。
  • 锂,W.冯J江T(2011)。Isolasso:基于RNA序列的转录组装配的套索回归方法。J计算机。Bio. 十八1693—1707。
  • 锂,JJ.江C.R.布朗JB.,黄H.比克尔P.J(2011)。下一代mRNA序列(RNA-seq)数据的稀疏线性建模,用于亚型发现和丰度估计。PROCNATL阿卡德SCI。美国 一百零八19867—19872。
  • MortazaviA.威廉姆斯B.A.McCueK.谢弗L.和WORD,B.(2008)。用RNA序列定位和定量哺乳动物转录体。NAT方法 621—628。
  • 萨尔兹曼J.江H.WongWH.(2011)。RNA序列数据的统计建模。统计学家。SCI。 二十六62—83。
  • 斯里瓦斯塔瓦S.陈L.(2010)。一个双参数广义泊松模型以改进RNA序列数据的分析。核酸研究 三十八E170。
  • 特拉普内尔C.帕切特L.SalzbergS.L.(2009)。顶帽:发现与RNA序列的剪接连接。生物信息学 二十五1105—1111。
  • 特拉普内尔C.威廉姆斯B.A.PerteaG.MortazaviA.KwanG.van BarenMJ.SalzbergS.L.,沃尔德B.J帕切特L.(2010)。RNA序列的转录装配和定量显示细胞分化过程中未标记的转录和异构体转换。NAT生物技术 二十八511—515。
  • VarinC.瑞德n.名词Firthd.(2011)。复合似然法概述。统计学家。西尼卡 二十一5—42。
  • 王e.T.桑德伯格R.罗S.Khrebtukova一、张L.,迈尔C.金斯莫尔S.F.施罗思G.P.BurgeC.B.(2008)。人类组织转录体中的替代亚型调控。自然 四百五十六470—476。
  • 吴H.秦Z.S.朱是的。(2012)。pm-seq:使用有限泊松混合模型进行RNA-seq数据分析和转录表达水平定量。生物科学统计 71—87。
  • 吴H.朱是的。(2016)。“补充”对碱基对水平的反褶积RNA序列读取计数用于量化转录表达水平。”“DOI:10.1214/16-AOAS906供应.
  • 扎哈里亚M.乔杜里M.富兰克林MJ.ShenkerS.和斯图卡,一。(2010)。spark:使用工作集的集群计算。在热云法律程序第二届云计算热点会议10—10。尤尼克斯协会,伯克利CA

补充资料

  • 反褶积碱基对水平RNA序列的补充文件读取计数定量转录表达水平。我们提供了一份补充文件来说明泊松混合分布的细节,$Y_m r的条件分布,示例的分布,复合似然函数,电磁算法的细节,量化方法,示例的支持数字,MCF7的量化结果,以及支撑图,例如1。