详细内容

PDB格式说明

标题部分

HEADER: 分子类, 公布日期, ID号

OBSLTE: 注明此ID号已废弃, 改用新ID号

TITLE: 说明实验方法类型

CAVEAT: 可能的错误警告

COMPND: 化合物分子组成

SOURCE: 化合物来源

KEYWDS: 关键词

EXPDTA: 测定结构所用的实验方法

AUTHOR: 结构测定者

REVDAT: 修订日期及相关内容

SPRSDE: 已撤销或更改的相关记录

JRNL: 发表坐标的期刊

REMARK REMARK 1: 有关文献 REMARK 2: 最大分辨率 REMARK 3: 用到的程序和统计方法. 记述结构优化的方法和相关统计数据. REMARK 4-999: 其他信息


一级结构

DBREF: 其他序列库的有关记录

SEQADV: PDB与其他记录的出入

SEQRES: 残基序列

MODRES: 对标准残基的修饰


杂因子

HET: 非标准残基

HETATM: 非标准残基的名称

HETSNY: 非标准残基的同义字

FORMOL: 非标准残基的化学式


二级结构

HELIX: 螺旋. 标识螺旋的位置和类型(右手α螺旋等), 每个螺旋一条记录.

SHEET: 片层. 标识每个片层的位置, 类型(sense, 如反平行等), 相对于模型中每个束的片层(如果存在的话)中前一束的说明, 每个片层一条记录.

TURN: 转角


连接注释

SSBOND: 二硫键. 定义半胱氨酸CYS残基之间的二硫键

LINK: 残基间化学键

HYDBND: 氢键

SLTBRG: 盐桥

CISPEP: 顺式残基


晶胞特征及坐标变换

CRYST1: 晶胞参数(NMR除外). 记述晶胞结构参数(a, b, c, α, β, γ, 空间群)以及Z值(单位结构中的聚合链数).

ORIGXn: 直角-PDB坐标

SCALEn: 直角-晶体分数坐标(n=1, 2, 3, NMR除外). 说明数据中直角坐标向晶体分数坐标的变换因子.

MTRIXn: 非晶相对称

TVECT: 平移矢量


坐标部分

MODEL: 多亚基时显示亚基号 当一个PDB文件中包含多个结构时(例: NMR结构解析), 该记录出现在各个模型的第一行. 

MODEL记录行的第11-14列上记入模型序号. 

序号从1开始顺序记入, 在11-14列中从右起写. 

比如说有30个模型, 则第1至9号模型, 该行的7-13列空白, 在14列上记入1-9的数字; 

第10-30号模型, 该行的7-12列空白, 13-14列上记入10-30的数字.


ATOM: 标准残基的原子. 记述标准残基(氨基酸以及核酸)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息.

SIGATM: 标准差

ANISOU: 各向异性

SIGUIJ: 各种温度因素导致的标准差

TER: 残基链的末端. 表示残基链的结束. 在每个聚合链的末端都必须有TER记录, 但因序列无序造成的链中断处不需要该记录. 

例如, 一个血红蛋白分子包含四个亚链. 彼此之间并不相连. TER标识了每条链的结束, 以防显示时这条链与下一条相连.

HETATM: 非标准残基的原子. 记述非标准残基(标准氨基酸以及核酸以外的化合物, 包括抑制剂, 辅因子, 离子, 溶剂)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息. 

与ATOM记录的唯一区别在于HETATM残基默认情况下不会与其他残基相连. 注意, 水分子也应放在此记录中.

ENDMDL: 亚基结束. 与MODEL记录成对出现, 记述在各模型的链末端的TER记录之后.


连接信息部分

CONECT: 原子间的连接信息


簿记

MASTER: 版权拥有者

END: 文件结束. 标志PDB文件的结束, 必需记录.


一些记录类型的说明

PDB文件里面的每个记录都有着严格的格式. 每个记录中的字段, 如标识, 原子名称, 原子序号, 残基名称, 残基序号等, 

不仅要按照严格的顺序书写, 而且每个字段所占的字符串长度, 及其所处的位置都是严格规定好的. 这些记录中, 通常最关心的是原子记录, 其详细说明可参考PDB原子记录官方文档.


一些老的PDB文件可能不完全遵循新格式. 对大多数用户而言, 最值得注意的区别在于ATOM和HETATM记录中的温度因子字段. 

下文的例子中没有使用这些字段. 此外, 有些字段常常留空, 例如, 如当原子没有可替换位置时, 可替位置标识符就会留空.


CRYST1记录

PDB文件 CRYST1 记录

列 数据 格式 对齐 说明

1-6 CRYST1 字符 左 CRYST1

7-15 X轴长度 real(9.3) 右 X轴长度

16-24 Y轴长度 real(9.3) 右 Y轴长度

25-33 Z轴长度 real(9.3) 右 Z轴长度

34-40 α角度 real(7.2) 右 α角度

41-47 β角度 real(7.2) 右 α角度

48-54 γ角度 real(7.2) 右 α角度


再往后就是空间群P 1                1

或者其他空间群


MODEL记录

PDB文件 MODEL 记录

列 数据 格式 对齐 说明

1-5 MODEL 字符 左 MODEL

10-14 序号 整数 右 结构序号


ENDMDL记录

PDB文件 MODEL 记录

列 数据 格式 对齐 说明

1-6 ENDMDL 字符 左 体系结束


ATOM记录

PDB文件 ATOM 记录

列 数据 格式 对齐 说明

1-4 ATOM 字符 左 Record Type 记录类型

7-11 serial 整数 右 Atom serial number 原子序号


PDB文件对分子结构处理为

segment, chain, residue, atom四个层次(一般并不用到chain),

因此此数位限定了一个残基中的最大原子数为为99999


13-16 name 字符 左 Atom name 原子名称

原子的元素符号在13-14列中右对齐

一般从14列开始写, 占四个字符的原子名称才会从13列开始写.

如, 铁原子FE写在13-14列, 而碳原子C只写在14列.


ATOM记录

PDB文件 ATOM 记录

列 数据 格式 对齐 说明

17 altLoc 字符 Alternate location indicator 可替位置标示符

18-20 resName 字符 Residue name 残基名称

22 chainID 字符 Chain identifier 链标识符

23-26 resSeq 整数 右 Residue sequence number 残基序列号

27 iCode 字符 Code for insertion of residues 残基插入码

28-30 留空

31-38 x 浮点 右 Orthogonal coordinates for X in Angstroms 直角x坐标(埃)

39-46 y 浮点 右 Orthogonal coordinates for Y in Angstroms 直角y坐标(埃)

47-54 z 浮点 右 Orthogonal coordinates for Z in Angstroms 直角z坐标(埃)

55-60 occupancy 浮点 右 Occupancy 占有率

61-66 tempFactor 浮点 右 Temperature factor 温度因子

67-72 留空

73-76 segID 字符 左 Segment identifier(optional) 可选的片段标识符

VMD会使用此数据

77-78 element 字符 右 Element symbol 元素符号

79-80 charge 字符 Charge on the atom(optional) 可选的原子电荷.

实际分子模拟中往往重新定义电荷, 故此列往往不用.

VMD写出的PDB文件中无此列.


HETATM记录

PDB文件 HETATM 记录

列 数据

1-6 HETATM

7-80 与ATOM记录相同


TER记录

PDB文件 TER 记录

列 数据 格式 对齐 说明

1-3 TER 字符  

7-11 Serial number 整数 右 序号

18-20 Residue name 字符 右 残基名称

22 Chain identifier 字符 链标识符

23-26 Residue sequence number 整数 右 残基序列号

27 Code for insertions of residues 字符 残基插入码


SSBOND记录

PDB文件 SSBOND 记录

列 数据 格式 对齐 说明

1-6 SSBOND 字符  

8-10 Serial number 整数 右 序号

12-14 Residue name (CYS) 字符 右 残基名称(CYS)

16 Chain identifier 字符 链标识符

18-21 Residue sequence number 整数 右 残基序列号

22 Code for insertions of residues 字符 残基插入码

26-28 Residue name (CYS) 字符 右 残基名称(CYS)

30 Chain identifier 字符 链标识符

32-35 Residue sequence number 整数 右 残基序列号

36 Code for insertions of residues 字符 残基插入码

60-65 Symmetry operator for first residue 整数 右 第一个残基的对称操作

67-72 Symmetry operator for second residue 整数 右 第二个残基的对称操作


HELIX记录

PDB文件 HELIX 记录

列 数据 格式 对齐 说明

1-5 HELIX 字符 左  

8-10 Helix serial number 整数 右 螺旋序号

12-14 Helix identifier 字符 右 螺旋标识符

16-18 Initial residue name 字符 右 起始残基名称

20 Chain identifier 字符 链标识符

22-25 Residue sequence number 整数 右 残基序列号

26 Code for insertions of residues 字符 残基插入码

28-30 Terminal residue name 字符 右 终止残基名称

32 Chain identifier 字符 链标识符

34-37 Residue sequence number 整数 右 残基序列号

38 Code for insertions of residues 字符 残基插入码

39-40 Type of helix 整数 右 螺旋类型注1

41-70 Comment 字符 左 注释

72-76 Length of helix 整数 右 螺旋长度


HELIX记录

注1: 螺旋类型有如下几种:

1: Right-handed alpha (default) 右手α螺旋(默认)

2: Right-handed omega 右手ω螺旋

3: Right-handed pi 右手π螺旋

4: Right-handed gamma 右手γ螺旋

5: Right-handed 3/10 右手3/10螺旋

7: Left-handed omega 右手ω螺旋

6: Left-handed alpha 右手α螺旋

8: Left-handed gamma 右手γ螺旋

9: 2/7 ribbon/helix 2/7带状螺旋

10: Polyproline 聚脯氨酸


SHEET记录

PDB文件 SHEET 记录

列 数据 格式 对齐 说明

1-5 SHEET 字符  

8-10 Strand number (in current sheet) 整数 右 束编号(当前片层中)

12-14 Sheet identifier 字符 右 片层标识符

15-16 Number of strands (in current sheet) 整数 右 束数目(当前片层中)

18-20 Initial residue name 字符 右 起始残基名称

22 Chain identifier 字符 链标识符

23-26 Residue sequence number 整数 右 残基序列号

27 Code for insertions of residues 字符 残基插入码

29-31 Terminal residue name 字符 右 终止残基名称

33 Chain identifier 字符 链标识符

34-37 Residue sequence number 整数 右 残基序列号

38 Code for insertions of residues 字符 残基插入码

39-40 Strand sense with respect to previous 整数 右 相对于前一个片层的类型注2


以下字段标识两个原子,

第一个位于当前片层, 第二个位于前一片层,它们彼此之间以氢键相连.对束1这些字段应留空.


SHEET记录

PDB文件 SHEET 记录

列 数据 格式 对齐 说明

42-45 Atom name (as per ATOM record) 字符 左 原子名称(每个ATOM记录一个)

46-48 Residue name 字符 右 残基名称

50 Chain identifier 字符 链标识符

51-54 Residue sequence number 整数 右 残基序列号

55 Code for insertions of residues 字符 残基插入码

57-60 Atom name (as per ATOM record) 字符 左 原子名称(每个ATOM记录一个)

61-63 Residue name 字符 右 残基名称

65 Chain identifier 字符 链标识符

66-69 Residue sequence number 整数 右 残基序列号

70 Code for insertions of residues 字符 残基插入码


注2: 类型标识:

1: 平行

-1 反平行

0: 用于束1


格式说明

对于熟悉FORTRAN程序语言的用户, 下面是格式说明

ATOM或HETATM: Format ( A6,I5,1X,A4,A1,A3,1X,A1,I4,A1,3X,3F8.3,2F6.2,6X,A4,A2,A2 )

SSBOND: Format ( A6,1X,I3,1X,A3,1X,A1,1X,I4,A1,3X,A3,1X,A1,1X,I4,A1,23X,2I3,1X,2I3 )

HELIX: Format ( A6,1X,I3,1X,A3,2(1X,A3,1X,A1,1X,I4,A1),I2,A30,1X,I5 )

SHEET: Format ( A6,1X,I3,1X,A3,I2,2(1X,A3,1X,A1,I4,A1),I2,2(1X,A4,A3,1X,A1,I4,A1) )


在FORTRAN语言的输入/输出格式中

X表示输入/输出空格

An表示输入/输的字符串占n位, 左对齐

In表示输入/输的整数占n位, 左对齐

Fm.n表示输入/输的浮点数占m位, 其中小数点后的数字占n位


这些格式前面的整数则表示重复次数, 如23X表示23个空格, 3F8.3表示F8.3格式重复三次.


如果你使用其他程序语言, 可根据上面的格式说明转换为相应的形式.


温度因子 B-factor

The B-factor (or temperature factor) is an indicator of thermal motion about an atom. However, it should be pointed out that the B-factor is a mix of real thermal displacement, 

static disorder (multiple but defined conformations) and dynamic disorder (no defined conformation), and all the overlap between these definitions.

B因子也叫温度因子, 一般在晶体测定的pdb中都有, 是晶体学中的一个重要参数. 晶体学中结构因子可以表达为坐标x, y, z与Bj因子的函数. 

物理学上对于Bj的表征有很多理论模型, 最成功的是由Debye和Waller提出的. 将固体内振荡的量子本质计算在内后, 他们将Bj表征为绝对温度T和其他各基本参数的函数. 

由此可见, Bj与原子的质量等基本性质有关, 也与实验温度有关.

B因子体现了晶体中原子电子密度的”模糊度”(diffusion), 这个”模糊度”实际上反映了蛋白质分子在晶体中的构象状态. 

B因子越高, “模糊度”越大, 相应部位的构象就越不稳定. 在晶体学数据中, B因子一般是以原子为单位给出的, 我们可以换算成相应残基的B因子, 从而分析残基的构象稳定性. 

另外, 计算出的B因子中实际上包含了实验中的很多因素, 如晶体结构测定的实验误差等, 精度高的晶体结构数据提供较可靠的B因子数据.


此外, 另外温度因子还和占有率相关, 如果本身结构解析过程中占有率低, 也会导致温度因子升高. 这个时候只能说是X-ray收集数据的时候这个地方的信号比较弱, 而和结构本身的构象如何, 没有关系.

PDB中的晶体学数据是以原子为单位的, 它所给出的B因子是相对于每个原子的. 统计中, 首先将原子的B因子换算成残基的B因子, 即把每个残基所有原子的B因子取平均值.

 由于蛋白质分子表面残基的运动性比较大, B因子相对较高, 所以在统计中除去了这部分残基, 具体方法是将数据中B因子高的残基去掉10%, 对剩下的残基进行统计, 计算平均值.

温度因子做图后可以体现蛋白某些部位的活动性和柔韧性. 它也可以由计算rmsf得到. 在GROMACS中, g_rmsf可以将rmsf换算成B因子输出至pdb. 

与晶体测定结构中的B因子相比较, 如果呈较好的相关, 可以说明模拟的过程是正常, 合理的. 但pdb中的B因子都是原子的, 一般是比较残基间的, 可以转换一下.


上一篇参数文件下一篇gro格式说明
最新评论
请先登录才能进行回复登录
技术支持: CLOUD | 管理登录
seo seo