admin管理员组文章数量:1530889
2024年5月21日发(作者:)
第四章、生物学数据库——内容、结构
国际上已建立许多生物分子公共数据库,包括核酸序列数据库、蛋白质序列数据库和生物大
分子结构数据库等,他们负责收集、组织、管理和发布生物分子数据。并提供数据检索和基
本的分析工具,向生物学研究人员提供大量有用的信息。
一、数据库文件格式
1.常用的序列、结构文件的格式
1.1序列文件
为使生物数据可以被计算机程序使用,生物数据必须表示为计算机读取的标准格式,常
见的方法是存为文本文件。很多生物信息数据库和软件处理序列数据时要求有标准的格式对
序列数据进行输入和输出,这要求我们有统一的核酸和蛋白质序列格式。
常用的三种格式是NBRF/PIR、FASTA和GDE。(考)
每种格式不公能够表示序列本身,还可以插入唯一的代码来识别序列,并对序列进行说明,
包括序列的名称,序列所属物种,序列的长度及功能等。
NBRF/PIR格式;第一行以>P1开头是蛋白质序列>N1开头是核酸序列。分号后跟一个编号
是序列的唯一标识号;_后是标识来源,之后是说明行,扩展名是”。Pir”or”.seq”。
FASTA格式:第一行以>开头但没有指明是蛋白质还是核酸序列后跑代码,接着注释,通常
注释以“|”分开,第一行没有长度限制。FASTA格式允许以小写字母代表序列。扩展名为
“.fasta”
GDE格式:与FAST格式基本相同,但是行首是%号,扩展名为“.gde”。
虽然三种格式的扩展名不同,可是其实质都是文本文件,所以我们可以用,windows下的写
字板对文件进行阅读和编辑,不要使用word进行编辑会使文件出现多余的非法字符。
在序列中10个残基空一格,60个残基换一行,核酸残基有A、T、G、C、U五种碱基;蛋
白质为二十种基本氨基酸符号:
氨基酸名称
甘氨酸
丙氨酸
缬氨酸
异亮氨酸
亮氨酸
苯丙氨酸
脯氨酸
甲硫氨酸
色氨酸
半胱氨酸
英文缩写
Gly
Ala
Val
Ile
Leu
Phe
Pro
Met
Trp
Cys
简写
G
A
V
I
L
F
P
M
W
C
氨基酸名称
丝氨酸
苏氨酸
天冬酰胺
谷酰胺
酪氨酸
组氨酸
天冬氨酸
谷氨酸
赖氨酸
精氨酸
英文缩写
Ser
Thr
Asn
Gln
Try
His
Asp
Glu
Lys
Arg
简写
S
T
N
Q
Y
H
D
E
K
R
注意:序列中存在的特别符号
—代表不明长度的空位(gap);不明核酸用N,不明蛋白质是X;R代表G或A的嘌呤;Y
代表T或C的嘧啶;K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C氢
键强;W代表A或T弱;(考)B代表G、T或C;D代表G、A或T;H代表A、C或T;
V代表G、C或A;N代有A、G、C、T任意一种;*代表翻译结束。
1.2数据库格式
从GenBank flatfile 格式(GBFF)的角度介绍其中的序列数据,GBFF是GenBank数据
库的基本信息单位,是最广泛表示生物序列格式之一,也是GenBank/EMBL/DDBJ三大数
据库交换数据的格式。各个数据库中的格式基本相同,稍有差别,每个记录代表了一个单独
的、连续的、带有注释的DNA或RNA片断或蛋白质序列。数据库的每一条目是一分纯文
本文件,左端为识别标志,识别是完整英文。
GenBank和EMBL数据库行首识别标志
EMBL识别标志
ID
AC
DE
OS
OC
DT
KW
RN
RA
RT
RL
RX
DR
XX
CC
NI
FH
FT
SQ
∥
GenBank识别标志
LOCUS
ACCESSION
DEFINITION
SOUCE
ORGANISM
KEYWORDS
REFERENCE
AUTHORS
TITLE
JOURNAL
COMMENTS
MEDLINE
COMMENT
VERSION
FEATURES
TEATURES
BASE COUNT
ORIGIN
∥
意义
标识字符串及短描述字
接受号
描述
生物来源
生物体系分类谱系
建立日期
关键字
引文编号
引文作者
引文题目
引文期刊
交叉引用
对其它数据库的引用
引用MEDLINE号
为阅读清晰加的空白
评注
可更新的序列版本号
特性表头
特性表
EMBL序列开始,后跟长度、字母
GENBANK碱基数
GENBANK序列开始标志、为空行
序列结束标志
1.3 GBFF格式
GBFF格式分为三部分:第一部分是描述符,从第一行LOCUS行到ORIGIN行,包含了整
个记录的信息;第二部分是物性表,从FEATURES行开始,包含了注释这一记录的特性,
是条目的核心,中间使用一批关键字;第三部分是序列本身,以//符号结尾。
第一部分:
第一行:LOCUS AF486325 477bp DNA linera VRL 12-AUG-2002
LOCUS:基因座位,某一特定的基因位于染色体或其他载体所在位置,包括该基因的全部
核苷酸序列。Locus名称由一个英文字母+数字组成总长不超过10个字符。在数据库中locus
名称在数据库中必须是独立的、唯一的,以保证检索的不被重复。
版权声明:本文标题:第四章、生物学数据库——内容、结构 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/dianzi/1716295626a496331.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论