admin管理员组

文章数量:1530889

2024年5月21日发(作者:)

第四章、生物学数据库——内容、结构

国际上已建立许多生物分子公共数据库,包括核酸序列数据库、蛋白质序列数据库和生物大

分子结构数据库等,他们负责收集、组织、管理和发布生物分子数据。并提供数据检索和基

本的分析工具,向生物学研究人员提供大量有用的信息。

一、数据库文件格式

1.常用的序列、结构文件的格式

1.1序列文件

为使生物数据可以被计算机程序使用,生物数据必须表示为计算机读取的标准格式,常

见的方法是存为文本文件。很多生物信息数据库和软件处理序列数据时要求有标准的格式对

序列数据进行输入和输出,这要求我们有统一的核酸和蛋白质序列格式。

常用的三种格式是NBRF/PIR、FASTA和GDE。(考)

每种格式不公能够表示序列本身,还可以插入唯一的代码来识别序列,并对序列进行说明,

包括序列的名称,序列所属物种,序列的长度及功能等。

NBRF/PIR格式;第一行以>P1开头是蛋白质序列>N1开头是核酸序列。分号后跟一个编号

是序列的唯一标识号;_后是标识来源,之后是说明行,扩展名是”。Pir”or”.seq”。

FASTA格式:第一行以>开头但没有指明是蛋白质还是核酸序列后跑代码,接着注释,通常

注释以“|”分开,第一行没有长度限制。FASTA格式允许以小写字母代表序列。扩展名为

“.fasta”

GDE格式:与FAST格式基本相同,但是行首是%号,扩展名为“.gde”。

虽然三种格式的扩展名不同,可是其实质都是文本文件,所以我们可以用,windows下的写

字板对文件进行阅读和编辑,不要使用word进行编辑会使文件出现多余的非法字符。

在序列中10个残基空一格,60个残基换一行,核酸残基有A、T、G、C、U五种碱基;蛋

白质为二十种基本氨基酸符号:

氨基酸名称

甘氨酸

丙氨酸

缬氨酸

异亮氨酸

亮氨酸

苯丙氨酸

脯氨酸

甲硫氨酸

色氨酸

半胱氨酸

英文缩写

Gly

Ala

Val

Ile

Leu

Phe

Pro

Met

Trp

Cys

简写

G

A

V

I

L

F

P

M

W

C

氨基酸名称

丝氨酸

苏氨酸

天冬酰胺

谷酰胺

酪氨酸

组氨酸

天冬氨酸

谷氨酸

赖氨酸

精氨酸

英文缩写

Ser

Thr

Asn

Gln

Try

His

Asp

Glu

Lys

Arg

简写

S

T

N

Q

Y

H

D

E

K

R

注意:序列中存在的特别符号

—代表不明长度的空位(gap);不明核酸用N,不明蛋白质是X;R代表G或A的嘌呤;Y

代表T或C的嘧啶;K代表G或T(带酮基);M代表A或C(带氨基);S代表G或C氢

键强;W代表A或T弱;(考)B代表G、T或C;D代表G、A或T;H代表A、C或T;

V代表G、C或A;N代有A、G、C、T任意一种;*代表翻译结束。

1.2数据库格式

从GenBank flatfile 格式(GBFF)的角度介绍其中的序列数据,GBFF是GenBank数据

库的基本信息单位,是最广泛表示生物序列格式之一,也是GenBank/EMBL/DDBJ三大数

据库交换数据的格式。各个数据库中的格式基本相同,稍有差别,每个记录代表了一个单独

的、连续的、带有注释的DNA或RNA片断或蛋白质序列。数据库的每一条目是一分纯文

本文件,左端为识别标志,识别是完整英文。

GenBank和EMBL数据库行首识别标志

EMBL识别标志

ID

AC

DE

OS

OC

DT

KW

RN

RA

RT

RL

RX

DR

XX

CC

NI

FH

FT

SQ

GenBank识别标志

LOCUS

ACCESSION

DEFINITION

SOUCE

ORGANISM

KEYWORDS

REFERENCE

AUTHORS

TITLE

JOURNAL

COMMENTS

MEDLINE

COMMENT

VERSION

FEATURES

TEATURES

BASE COUNT

ORIGIN

意义

标识字符串及短描述字

接受号

描述

生物来源

生物体系分类谱系

建立日期

关键字

引文编号

引文作者

引文题目

引文期刊

交叉引用

对其它数据库的引用

引用MEDLINE号

为阅读清晰加的空白

评注

可更新的序列版本号

特性表头

特性表

EMBL序列开始,后跟长度、字母

GENBANK碱基数

GENBANK序列开始标志、为空行

序列结束标志

1.3 GBFF格式

GBFF格式分为三部分:第一部分是描述符,从第一行LOCUS行到ORIGIN行,包含了整

个记录的信息;第二部分是物性表,从FEATURES行开始,包含了注释这一记录的特性,

是条目的核心,中间使用一批关键字;第三部分是序列本身,以//符号结尾。

第一部分:

第一行:LOCUS AF486325 477bp DNA linera VRL 12-AUG-2002

LOCUS:基因座位,某一特定的基因位于染色体或其他载体所在位置,包括该基因的全部

核苷酸序列。Locus名称由一个英文字母+数字组成总长不超过10个字符。在数据库中locus

名称在数据库中必须是独立的、唯一的,以保证检索的不被重复。

本文标签: 序列数据库格式生物数据