当前位置: > 生命科学 > 三代测序产量越高越好?您可能掉坑里了!

三代测序产量越高越好?您可能掉坑里了!

继Pacbio RS II之后,第三代测序仪公司PacBio的新仪器Pacbio Sequel发布已一年有余。因其比原来RSII系统具有更高通量和更低成本的优势,吸引了大量关注。尤其是最近,随着V2.0版本测序试剂的发布,其漂亮的数据,更是让人跃跃欲试。然而,大家可能不知道是,在V2.0之前,有不成熟的V1.2.1,和更不成熟的V1.0和V1.2。

三代测序产量越高越好?您可能掉坑里了!

实验室中的Sequel(左)和RS II (右)测序平台

对于三代测序平台,大多数人会自然地把二代测序平台的指标带入。例如,大家熟知的Q值,是在二代测序平台上评判数据质量的基础参数,在二代平台上通常用Q20和Q30表示。而在PacBio平台上,也有一个Q值,但是打分系统和二代不一样,两者并不具有可比性,三代系统的Q值为RQ(Read Quality ≥ 0.75为默认高质量)。而且,由于三代测序产生的错误是随机错误,所以可通过提高测序深度来增加准确性。今天要跟大家分享的,就是像Q值这类常见的认知误区,让大家尽量避免“踩坑”。

先来看看太微科技最新V2.0试剂20K文库的数据下机报告。

三代测序产量越高越好?您可能掉坑里了!

太微科技最新V2.0试剂20K文库的数据下机报告

以上报告结果从左至右的结果分别是:

  • Name:样本名称;
  • Status:测序状态;
  • Movie Time(minutes):运行时间,像图中的600分钟即表示一个cell的运行时间是10小时,原来大部分运行时间是6小时;
  • Total Bases(GB):测序数据产量;
  • Read length:读长信息,分为酶读长和subread ,下文会针对不同读长有详细图解;
  • Productivity:产出率,有三个值,P0、P1、P2,有效值看P1即可,下文对此有详细解释。

1. Sequel 测序读长越长越好?哪种读长最重要?

对,读长越长越好。而在PacBio系统中,却有三种读长信息——Polymerase read、Read of insert和Subread length。它们分别是什么意思?到底哪个更重要呢?

Polymerase read指酶读长,表示测序过程从第一个有效碱基开始到最后一个碱基结束时测得的读长的总长度。正常测序情况下影响酶读长的因素包括:1.文库长度;2.测序酶的活性;3.测序运行时间。

在解释另外两种读长之前,我们先来看看Sequel测序的两种测序模式:

Pacbio 测序的两种测序模式

Pacbio 测序的两种测序模式

当文库的插入片段大于酶读长时,测序模式为CLR模式,表示酶的活性与测序时长不足以支撑它读完整个片段;

当文库的插入片段小于酶读长时,测序模式为CCS模式,表示酶的活性足够支撑它读完整个片段后还可以继续循环读下去。

Subread length指CCS测序模式下单个循环的长度,如果最后一个循环没读完也算一个subread,所以一条片段有可能存在多种subread。一个孔里最长的那条subread 即longest subread 和read of Insert 一样长,即Longest subread=read of insert。

CCS测序模式下各种读长的图示

CCS测序模式下各种读长的图示

 

Read of insert指插入片段的序列读长,这个序列就是最后得到的序列。相应的,这个长度才是您得到的下机序列的长度。在CCS模式下和longest subread一样长,在CLR 模式下和酶读长差不多(差一个接头的长度)。

CLR 模式下各种读长的图示

CLR 模式下各种读长的图示

 

回到开始的问题,读长是不是越长越好呢?是的,读长越长越好。那么哪种读长最好?对于基因组组装来说,插入片段越长越利于组装,比较短的片段很可能被其它片段覆盖掉,在纠错的过程中被去除,所以reads of insert(longest subread)的长度越长越好,对于组装结果起着决定作用。

2. Sequel 测序结果产量越高越好?

这个说法对,也不对。对的前提就是——您需要的读长要有保障!Sequel测序结果呈现一个特点:插入片段读长和数据产出高比较难兼得。

在文库插入片段小的时候,在测序的过程中空间运行阻力小,酶读长偏长,数据产出结果高,read of insert 结果偏小;在文库插入片段大的时候,在测序的过程中空间运行阻力大,酶读长偏小,数据产出结果也偏低,但read of insert 结果会高。

所以想要获得高产出,可以采用降低文库插入片段长度、提高上样量等方式。但是,您得看下这个时候的插入片段读长,还是您期盼的三代的超长读长吗?

3. 为什么提高上机浓度可以提高产量呢?

在回答前先解释一下Sequel下机结果中的P0、P1、P2的概念。

众所周知,Sequel仪器有100万个孔(专业叫法是零模波导孔,ZMW),但是上机前处理过程中,并不是每个孔都按照希望只落入一条片段的。所以——

  • P0:代表一个孔里一条片段也没有,即空载,无效;
  • P1:代表一个孔里有且只有一条片段,有效;
  • P2:代表一个孔里有两条或者两条以上的片段,无效。

大家一看都知道P1才是想要的有效数据。那么,P1的比例是不是越高越好呢?其实不然,让科技君来告诉您为什么!

如果过量提高上样量,也就是行业内常说的over loading,可以提高P1的比例,产量也会随着提高。

咦,这个听起来好像没错啊?错了,因为在提高上样量的时候,提高P1的同时必然伴随着P2的提高,由于片段太多,一个孔里2条或2条以上的几率就增大,那为什么最终结果看起来P2好像也没有高多少?这就涉及PB的测序原理了,不赘述。

简而言之,落在1个孔里的两条片段有长有短,两个酶的活性也有高有低,所以最开始时两条片段同时测序,信号互相干扰无法识别,被系统判定为P2,但此前有两种信号时的测序信息就全部丢失,相当于片段被截短;但是,过了一段时间后,其中一个片段的酶失活了,信号也就消失了,只剩下另一条片段的信号,这个时候系统又能识别单一的测序信号了,将这个孔判定为P1。所以到此,各位应该明白,当提高上样量时,P1的确增加了,但是这里面很多P1都是由P2转化而来的,提高产出的同时,把longest read的长度也给拉低了。所以,P1不是越高越好,因为一般P1太高,插入片段读长就会降低,要把握好这两者的平衡。最简单的判断方法还是看插入片段的读长,插入片段读长够高,P1略高点也没关系。

知识点太多,有点记不住啊!其实简单总结起来就是:

序列读长和数据产量,通常难以兼得。要想获得两者兼备的好数据,需要不断地摸索实验条件。

插入片段读长越长越好,如果插入片段读长够长,数据产出结果还很高的话,那么恭喜您,您的数据结果很漂亮,可以偷着乐啦!

参考文献:
[1] Ganapathy G, Howard J T, Ward J M, et al. High-coverage sequencing and annotated assemblies of the budgerigar genome[J]. GigaScience, 2014, 3(1): 11.
[2] Yan L, Wang X, Liu H, et al. The genome of Dendrobium officinale illuminates the biology of the important traditional Chinese orchid herb[J]. Molecular plant, 2015, 8(6): 922-934.
[3] Bombarely A, Moser M, Amrad A, et al. Insight into the evolution of the Solanaceae from the parental genomes of Petunia hybrida[J]. Nature plants, 2016, 2: 16074.
[4] Fukushima K, Fang X, Alvarez-Ponce D, et al. Genome of the pitcher plant Cephalotus reveals genetic changes associated with carnivory[J]. Nature Ecology & Evolution, 2017, 1: 0059.

 

原文来自华大科技公众号:华大科技BGITech

支付宝赞助
微信赞助

三代测序产量越高越好?您可能掉坑里了!:等您坐沙发呢!

发表评论

表情
还能输入210个字