当前位置: > 生命科学 > Pacbio全长转录组测序之可变剪切分析

Pacbio全长转录组测序之可变剪切分析

以PacBio公司的SMRT单分子实时测序技术(Single molecule real-time sequencing)为代表的三代测序技术,通过其独有的环形一致性测序模式(Circular-consensus sequence,CCS),极大提高单碱基测序的准确率,远超Illumina等二代测序技术。与传统转录组测序项目相比,利用PacBio平台的全长转录组测序技术可以直接获得mRNA的全长,保证了mRNA序列的精确性。近期我们将陆续推出全长转录组测序技术相关文章,供讨论和交流。我们在上一期向大家介绍了全长转录组测序的分析内容,本期将为大家对派森诺特色分析内容——可变剪切模型可视化进行重点讲解。

可变剪切模型可视化

可变剪切是造成基因信息多样化的一个重要原因,通过对RNA序列测序可以检测到基因的不同可变剪切模式。今天为大家介绍一种可以将可变剪切模型绘制成图片的Python软件SpliceGrapher。

SpliceGrapher可以根据测序序列预测可变剪切模型,也可以用已知的基因注释文件生成可变剪切模型。它需要两种输入文件,注释gtf/gff3文件和测序reads与参考基因组比对的sam文件,如果有EST序列,也可以用上。

自动草稿

绘制可变剪切模型

SpliceGrapher的使用过程非常简单。首先需要去掉sam文件中的假阳性可变剪切。这里需要用上SpliceGrapher专门准备的物种特性筛选文件,在SpliceGrapher文件夹下有上百种物种的特性筛选文件。然后用筛选后的sam文件预测可变剪切模型,用注释gtf/gff3文件产生已知的可变剪切模型。最后用SpliceGrapher的绘图脚本将可变剪切模型画成图片。

可变剪切图解读

结果图蕴含了许多信息,下面就为大家介绍一下。

一个图片中仅有一个基因的模型,左下角和右下角的数字分别代表该基因的起始位点和终止位点。图片一共分4行,第一行为以该基因的注释文件作出的基因模型,第二行为根据测序结果与注释文件共同作出的基因模型,第三行也是根据测序结果与注释文件共同作出的基因模型,与第二行不同的是只是画出具有代表性的isoform,第四行则是测序文件中支持各外显子的reads数目。

灰色的五边形代表外显子,它们之间的连线表示不同的剪接方式。紫色背景表示有外显子出现的区域(这其中包括保留的内含子),白色背景表示没有外显子出现的区域(即内含子区域)。图中白色背景的宽度并不代表真实的内含子长度,由于有的基因内含子区域远比外显子区域长,为了更清楚地展示可变剪切模型,内含子区域会被缩短很多。

自动草稿

SpliceGrapher可以预测出多种多样的可变剪切事件,已知的基因模型中存在Alt 3’(可变3’端)、Skipped Exon(跳过外显子)、Intron Retention(内含子保留)、Alt 5’(可变5’端)、既是Alt 3’又是Skipped Exon、既是Alt 5’又是Intron Retention等多种可变剪切事件。不同的事件用不同的颜色标注出来,并在图片下方的图例中给予解释。

SpliceGrapher预测出的可变剪切模型可能会与已知的基因模型不同,如下图,根据测序结果预测出的基因模型比已知的基因模型多了一个外显子,横跨第6、7个外显子区域和第6个内含子区域。这一点从Read Coverage上也能看出来,在第6个内含子区域有不少reads覆盖度。这也许是一个从未被发现的exon。

自动草稿

 

支付宝赞助
微信赞助

Pacbio全长转录组测序之可变剪切分析:等您坐沙发呢!

发表评论

表情
还能输入210个字