当前位置: > 资源共享 > PacBio RS II下机数据格式详解

PacBio RS II下机数据格式详解

原始数据是什么样子的

PacBio RS II数据使用hdf5压缩方式储存,不常见的数据为pls.h5, plz.h5, reg.h5 等,一般常见的为 .bax.h5,和.bas.h5两种。一般有3个.bax.h5文件就不会丢失原始数据。

数据详解

PacBio RS II数据最原始的应该是.trc.h5文件,该数据属于原始的trace (movie),不会向一般用户公开。由一级分析(Primary Analysis)软件分析得到.bax.h5 和.bas.h5文件,这些数据可以用来做后续的高级分析(二级分析)。测序公司一般提供的原始数据是一级分析后的原始数据。

为什么各个文件有3个呢?

Analysis_Results目录下各种文件都有3个是为了加速测序的一级分析,Pacbio测序仪内置了3个二级分析服务器(分别叫pap02,pap03,pap04),三个服务器分别独立对测序下列的
原始数据一级分析,得到3个不同的文件。分别命名为.1.xxx,.2.xxx,.3.xxx。

为什么还有一个bas.h5,这是什么?

在初期的Pacbio RS II的下机数据只有3个.bas.h5文件,后来SMRT ANALYSIS升级后,原始数据改为三个.bax.h5,但是加入了一个.bas.h5文件,此文件可看做3个bax.h5的快捷方式合并,.bas.h5里面指向了3个.bah.h5文件,3个.bax.h5文件加起来是一个完整的数据,只有.bas.h5是没有用的。

下机路径是什么样子的?

Pacbio RS II的下机数据文件夹一般如下图的内容,除了.bax.h5外,还有一些属于统计信息和测序的日志文件。

PacBio RS II下机数据格式详解

Pacbio文件名命名规则

PacBio RS II下机数据格式详解

  1. "m"代表movie,一般都是m开头
  2. 测序开始时间 (yymmdd_hhmmss)
  3. 测序仪序列号,此号相同,代表是同一测序仪测序结果,如果多家公司此号相同,可说明几家公司公用一台测序仪
  4. SMRT Cell Barcode号
  5. Set Number (早期的RS系统叫"Look Number")
  6. Part Number (一般都是 "p0",如果是 "X0"则可能是用了过期试剂)
  7. ZMW 孔的孔号
  8. Subread范围 (Polymerase的start_stop 位置)

我需要哪些文件?

  • 如果你是用SMRT ANALYSIS进行后续的分析,你需要上述文件中的3个bax.h5, 1个bas.h5, 和一个metadata.xml文件,缺少任何一个文件都无法正确的导入到SMRT ANALYSIS中。也就不能用官方分析软件分析数据。
  • 如果你是用SMRTPIPE或者第三方的Pacbio数据分析软件,那么你需要3个bax.h5就可以进行后续高级分析了。

metadata.xml是什么文件?

每个pacbio RS II的结果文件中都有一个metadata.xml,此文件中包含了所有上机的信息:包括上机时间,样品号,样品名称,使用的酶的编号,酶和试剂的版本,建库的长度,测序movie时间等信息。

其他文件是什么?

其他的文件一般是一些不重要的过程文件,包括传输过程的记录,md5校验码,分析过程的记录等。

下面是一个metadata.xml的实例:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
<?xml version="1.0" encoding="utf-8"?>
<Metadata
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema"
    xmlns="http://pacificbiosciences.com/PAP/Metadata.xsd">
    <InstCtrlVer>2.3.0.0.140640</InstCtrlVer>
    <SigProcVer>NRT@172.31.128.10:8082, SwVer=2300.140640, HwVer=1.0</SigProcVer>
    <Run>
        <RunId>r000418_41201_170412</RunId>
        <Name>RunSample_20170412</Name>
        <WhenCreated>2017-04-12T15:23:38</WhenCreated>
        <WhenStarted>2017-04-12T23:35:50</WhenStarted>
    </Run>
    <Movie>
        <WhenStarted>2017-04-14T09:13:56.535118+00:00</WhenStarted>
        <DurationInSec>14400</DurationInSec>
        <Number>0</Number>
    </Movie>
    <Sample>
        <Name>SAMPLE-2911_93PCR-Mix-4X</Name>
        <PlateId>RunSample_20170412</PlateId>
        <WellName>H01</WellName>
        <Concentration>0</Concentration>
        <SampleReuseEnabled>false</SampleReuseEnabled>
        <StageHotstartEnabled>true</StageHotstartEnabled>
        <SizeSelectionEnabled>false
        </SizeSelectionEnabled>
        <UseCount>1</UseCount>
        <DNAControlComplex>2kb_control</DNAControlComplex>
    </Sample>
    <InstrumentId>1</InstrumentId>
    <InstrumentName>41201</InstrumentName>
    <CollectionProtocol>MagBead OneCellPerWell v1</CollectionProtocol>
    <CollectionNumber>8</CollectionNumber>
    <CellIndex>7</CellIndex>
    <SetNumber>1</SetNumber>
    <EightPac>
        <PartNumber>0018</PartNumber>
        <LotNumber>232828</LotNumber>
        <Barcode>10118811255000000382328080929178</Barcode>
        <ExpirationDate>2017-09-29</ExpirationDate>
    </EightPac>
    <TemplatePrep>
        <Name>DNA Template Prep Kit 3.0</Name>
        <PartNumber>100259100</PartNumber>
        <LotNumber>001762</LotNumber>
        <Barcode>001762100259100020115</Barcode>
        <ExpirationDate>2015-02-01</ExpirationDate>
        <AdapterSequence>ATCTCTCTCttttcctcctcctccgttgttgttgttGAGAGAGAT</AdapterSequence>
        <InsertSize>2000</InsertSize>
    </TemplatePrep>
    <BindingKit>
        <Name>DNA/Polymerase Binding Kit P6</Name>
        <PartNumber>100356300</PartNumber>
        <LotNumber>001945</LotNumber>
        <Barcode>001945100356300081415</Barcode>
        <ExpirationDate>2015-08-14</ExpirationDate>
        <Control>2kb_control</Control>
        <IsControlUsed>true</IsControlUsed>
    </BindingKit>
    <SequencingKit>
        <Name>ReagentPlate0</Name>
        <PartNumber>100356200</PartNumber>
        <LotNumber>001269</LotNumber>
        <Barcode>001269996100356200091718
        </Barcode>
        <ExpirationDate>2018-09-17</ExpirationDate>
        <Protocol>MagBeadReagentMixingProtocol_DWP</Protocol>
    </SequencingKit>
    <ReagentTube0>
        <Name>ReagentTube0-0</Name>
        <PartNumber>001028310</PartNumber>
        <LotNumber>001219</LotNumber>
        <Barcode>001219094001028310122718</Barcode>
        <ExpirationDate>2018-12-27</ExpirationDate>
    </ReagentTube0>
    <ReagentTube1>
        <Name>ReagentTube0-1</Name>
        <PartNumber>100192000</PartNumber>
        <LotNumber>001884</LotNumber>
        <Barcode>001884531100192000113010</Barcode>
        <ExpirationDate>2020-11-30</ExpirationDate>
    </ReagentTube1>
    <Primary>
        <Protocol>BasecallerV1</Protocol>
        <ConfigFileName>2-3-0_P6-C4.xml</ConfigFileName>
        <ResultsFolder>Analysis_Results</ResultsFolder>
        <CollectionPathUri>srs://smrtdata@45.62.100.211/pacbioDATA/RunSample_20170412/H01_1</CollectionPathUri>
        <CollectionFileCopy>Fasta</CollectionFileCopy>
        <CollectionFileCopy>Fastq</CollectionFileCopy>
    </Primary>
    <Secondary>
        <ProtocolName />
        <CellCountInJob>0</CellCountInJob>
    </Secondary>
    <Custom>
        <KeyValue key="svc:/CentralDataSvc/#Display.Sample_Metadata.User_Defined_Field_1" label="User Defined Field 1"></KeyValue>
        <KeyValue key="svc:/CentralDataSvc/#Display.Sample_Metadata.User_Defined_Field_2" label="User Defined Field 2"></KeyValue>
        <KeyValue key="svc:/CentralDataSvc/#Display.Sample_Metadata.User_Defined_Field_3" label="User Defined Field 3"></KeyValue>
        <KeyValue key="svc:/CentralDataSvc/#Display.Sample_Metadata.User_Defined_Field_4" label="User Defined Field 4"></KeyValue>
        <KeyValue key="svc:/CentralDataSvc/#Display.Sample_Metadata.User_Defined_Field_5" label="User Defined Field 5"></KeyValue>
        <KeyValue key="svc:/CentralDataSvc/#Display.Sample_Metadata.User_Defined_Field_6" label="User Defined Field 6"></KeyValue>
    </Custom>
    <ExpirationData>
        <EightPacPastExpiration>0</EightPacPastExpiration>
        <ReagentKitPastExpiration>0</ReagentKitPastExpiration>
        <ReagentTube0PastExpiration>0</ReagentTube0PastExpiration>
        <ReagentTube1PastExpiration>0</ReagentTube1PastExpiration>
    </ExpirationData>
</Metadata>
获得更多pacbio三代测序知识,请加入Pacbio三代测序技术QQ群:573323705
PacBio RS II下机数据格式详解
也可以订阅新科学官方微信订阅号:
PacBio RS II下机数据格式详解
支付宝赞助
微信赞助

PacBio RS II下机数据格式详解:等您坐沙发呢!

发表评论

表情
还能输入210个字