第四章、生物学数据库——内容、结构|电子爱好者

admin管理员组
文章数量:1530889

2024年5月21日发(作者：)

第四章、生物学数据库——内容、结构

国际上已建立许多生物分子公共数据库，包括核酸序列数据库、蛋白质序列数据库和生物大

分子结构数据库等，他们负责收集、组织、管理和发布生物分子数据。并提供数据检索和基

本的分析工具，向生物学研究人员提供大量有用的信息。

一、数据库文件格式

1．常用的序列、结构文件的格式

1.1序列文件

为使生物数据可以被计算机程序使用，生物数据必须表示为计算机读取的标准格式，常

见的方法是存为文本文件。很多生物信息数据库和软件处理序列数据时要求有标准的格式对

序列数据进行输入和输出，这要求我们有统一的核酸和蛋白质序列格式。

常用的三种格式是NBRF/PIR、FASTA和GDE。（考）

每种格式不公能够表示序列本身，还可以插入唯一的代码来识别序列，并对序列进行说明，

包括序列的名称，序列所属物种，序列的长度及功能等。

NBRF/PIR格式；第一行以>P1开头是蛋白质序列>N1开头是核酸序列。分号后跟一个编号

是序列的唯一标识号;_后是标识来源，之后是说明行，扩展名是”。Pir”or”.seq”。

FASTA格式：第一行以>开头但没有指明是蛋白质还是核酸序列后跑代码，接着注释，通常

注释以“|”分开，第一行没有长度限制。FASTA格式允许以小写字母代表序列。扩展名为

“.fasta”

GDE格式：与FAST格式基本相同，但是行首是%号，扩展名为“.gde”。

虽然三种格式的扩展名不同，可是其实质都是文本文件，所以我们可以用，windows下的写

字板对文件进行阅读和编辑，不要使用word进行编辑会使文件出现多余的非法字符。

在序列中10个残基空一格，60个残基换一行，核酸残基有A、T、G、C、U五种碱基；蛋

白质为二十种基本氨基酸符号：

氨基酸名称

甘氨酸

丙氨酸

缬氨酸

异亮氨酸

亮氨酸

苯丙氨酸

脯氨酸

甲硫氨酸

色氨酸

半胱氨酸

英文缩写

Gly

Ala

Val

Ile

Leu

Phe

Pro

Met

Trp

Cys

简写

氨基酸名称

丝氨酸

苏氨酸

天冬酰胺

谷酰胺

酪氨酸

组氨酸

天冬氨酸

谷氨酸

赖氨酸

精氨酸

英文缩写

Ser

Thr

Asn

Gln

Try

His

Asp

Glu

Lys

Arg

简写

注意：序列中存在的特别符号

—代表不明长度的空位（gap）；不明核酸用N，不明蛋白质是X；R代表G或A的嘌呤；Y

代表T或C的嘧啶；K代表G或T（带酮基）；M代表A或C（带氨基）；S代表G或C氢

键强；W代表A或T弱；(考)B代表G、T或C；D代表G、A或T；H代表A、C或T；

V代表G、C或A；N代有A、G、C、T任意一种；*代表翻译结束。

1.2数据库格式

从GenBank flatfile 格式（GBFF）的角度介绍其中的序列数据，GBFF是GenBank数据

库的基本信息单位，是最广泛表示生物序列格式之一，也是GenBank/EMBL/DDBJ三大数

据库交换数据的格式。各个数据库中的格式基本相同，稍有差别，每个记录代表了一个单独

的、连续的、带有注释的DNA或RNA片断或蛋白质序列。数据库的每一条目是一分纯文

本文件，左端为识别标志，识别是完整英文。

GenBank和EMBL数据库行首识别标志

EMBL识别标志

∥

GenBank识别标志

LOCUS

ACCESSION

DEFINITION

SOUCE

ORGANISM

KEYWORDS

REFERENCE

AUTHORS

TITLE

JOURNAL

COMMENTS

MEDLINE

COMMENT

VERSION

FEATURES

TEATURES

BASE COUNT

ORIGIN

∥

意义

标识字符串及短描述字

接受号

描述

生物来源

生物体系分类谱系

建立日期

关键字

引文编号

引文作者

引文题目

引文期刊

交叉引用

对其它数据库的引用

引用MEDLINE号

为阅读清晰加的空白

评注

可更新的序列版本号

特性表头

特性表

EMBL序列开始，后跟长度、字母

GENBANK碱基数

GENBANK序列开始标志、为空行

序列结束标志

1.3 GBFF格式

GBFF格式分为三部分：第一部分是描述符，从第一行LOCUS行到ORIGIN行，包含了整

个记录的信息；第二部分是物性表，从FEATURES行开始，包含了注释这一记录的特性，

是条目的核心，中间使用一批关键字；第三部分是序列本身，以//符号结尾。

第一部分：

第一行：LOCUS AF486325 477bp DNA linera VRL 12-AUG-2002

LOCUS：基因座位，某一特定的基因位于染色体或其他载体所在位置，包括该基因的全部

核苷酸序列。Locus名称由一个英文字母+数字组成总长不超过10个字符。在数据库中locus

名称在数据库中必须是独立的、唯一的，以保证检索的不被重复。

本文标签：序列数据库格式生物数据

版权声明：本文标题：第四章、生物学数据库——内容、结构内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1716295626a496331.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

W801W800蓝牙收发数据与控制设计(一)-INDICATE

1天前

这是目录一、项目概述二、程序设计三、收发控制测试四、功耗测试五、参考 W801蓝牙收发数据与控制设计(一)-INDICATE W801蓝牙收发数据与控制设计(二)-NOTIFY W800-KIT-蓝牙-温湿度传感器（

dwg格式文件用什么软件打开电脑如何打开dwg格式的文件

1天前

dwg格式文件用什么软件打开？很多朋友们遇见了dwg格式的文件，感到十分奇怪，这种格式的文件非常少见，也不知道如何将其打开。不少小伙伴向小编咨询&

dwg格式的计算机图,dwg是什么文件怎么打开【图文】

1天前

现在用电脑的地方也越来越多，而且为了方便工作，电脑上面安装的软件也是很多，有的软件我们可能不需要了就会删掉，但是电脑上面还会有一些文件&#xff

【MATLAB 处理BCI Competition IV 2a数据集】

1天前

MATLAB 处理BCI Competition IV 2a数据集前言BCI Competition IV 2a数据集介绍BCI Competition IV 2a数据集处理下载数据集matlab 处理数据数据介绍代码详情代码程序解释验

脑机接口竞赛（ BCI competition）数据集

1天前

目录 BCI竞赛数据集的官网：BCI Competitions 如何下载脑电数据集目录

BCI Competition IV 2a数据集介绍

1天前

前言本文是在结合了官方的英文介绍以及各大佬的讲解之后，根据我的个人理解整理出的关于BCICIV 2a数据集的简介，如有错误还请指正。相关链接如下： 数据集下载链接(.g

利用ChatGPT进行数据分析——如何提出一个好的prompt

1天前

利用ChatGPT进行数据分析——如何提出一个好的prompt 使用ChatGPT时，能否得到一个好的输出结果，关键在于能否提出好的prompt。 1.1 prompt是什么现在大

R语言+ChatGPT实现数据分析预测

1天前

工作需要了解数据分析方面的相关知识，起初对于这方面第一反应就是Python，虽说Python对数据分析，画图等都有很好的方面，但在搜索Python相关内

记一次u盘操作-复制大文件到U盘时出现空间不足的提示与格式选择

1天前

1、不删除U盘的文件右击U盘盘符，弹出下拉菜单。选择“运行”，键入“cmd”回车，打开命令提示符。键入“convert e:FS:NTFS”回车，转

U盘FAT32格式如何转换成NTFS格式

1天前

通常情况下，U盘都被格式化成FAT32文件格式，这样就限制了U盘的容量，只能限制在4G内，为了能够使用大容量的U盘,用户就需要将U盘FAT32格式转换成

教你让MacOS读写Windows的NTFS格式U盘

1天前

很多初次使用MacOS的朋友都会遇到U盘或硬盘插入后只能读不能写入的问题？这是因为U盘的格式默认是NTFS或FAT32等格式的,因此默认情况下是无法在macOS中对NTFS分区磁盘进行创建、删除或者修改文件,只能读取。

使用软碟通Ultraiso制作PE系统盘的U盘系统--两个分区，一个启动系统盘分区，一个任意格式分区

1天前

有时我们需要将一个U盘制作成有两个分区的启动盘系统盘，其中一个作为启动盘系统盘分区，另一个则用来存放其他有需要的东西（可转为NTFS等可存放超过4GB文件的分区） 1.打开软碟通Ultraiso软件，打开所要写入的PE盘系统盘

Win10找回自带的Windows照片查看器：打开jpg、png、gif格式的图片

1天前

点开图片，发现win10自带的图片查看器不见了。那么，改怎么找回win10自带的windows照片查看器呢？ 以下是具体步骤： 手动添加注册表 ①

Chrome浏览器数据本地备份

23小时前

Chrome浏览器数据本地备份适用场景：备份的数据包括：本地备份方法1.文件位置2.打包备份适用场景： 1.无法登录谷歌账号。 2.需要本地备份。 3.重装系统又不想通

Chrome浏览器数据迁移

23小时前

导出原来的数据（书签和浏览记录等） 找到Chrome个人资料路径，打开chrome:version，我的是C:UserscolborAp

在 Windows 上恢复出厂设置后恢复数据 - 恢复您的文件！

19小时前

您最近是否由于性能问题恢复了您的 PC？如果是，您必须检查您的所有个人数据是否安全。许多用户分享说，恢复后，他们找不到他们的数据。如果您面临同样的问题&

linux恢复安卓数据,安卓数据恢复2 - ranfs的个人空间 - OSCHINA - 中文开源技术交流社区...

19小时前

安卓数据恢复2 之前提供一种没有使用adb的方式，进行镜像的方法，存在两个问题，Quicksshd在有些手机上出现兼容性问题，在电脑上安装软件和操作还是

五笔字根查询接口,五笔输入法数据

12小时前

输入法，五笔打字，生活服务，字根查询一、接口介绍可对五笔字根口诀及五笔编码查询,希望能为您学习五笔输入法提供帮助。二、功能体验三、产品特点四、API文档 4

Win10系统无法使用VGAPlayer软件播放asf格式和VGA文件

10小时前

背景： 今天使用vgaplayer播放器播放uml视频时，发现vagplayer播放器，安装好软件后没法打开。为什么呢。难道是系统的问题？ 原因&am

Win11录屏数据保存在哪里？Win11录屏数据保存的位置

3小时前

在Windows系统中都有自带一个录屏的功能，该功能可以帮助录制屏幕中格式内容，不过有很多升级到Win11系统的小伙伴在录制完之后不清楚保存在哪里，那么遇到这种情况应该怎么办

电子爱好者 - 最新技术资讯及电子产品介绍！

第四章、生物学数据库——内容、结构

更多相关文章

W801W800蓝牙收发数据与控制设计(一)-INDICATE

dwg格式文件用什么软件打开 电脑如何打开dwg格式的文件

dwg格式的计算机图,dwg是什么文件 怎么打开【图文】

【MATLAB 处理BCI Competition IV 2a数据集】

脑机接口竞赛（ BCI competition）数据集

BCI Competition IV 2a数据集介绍

利用ChatGPT进行数据分析——如何提出一个好的prompt

R语言+ChatGPT实现数据分析预测

记一次u盘操作-复制大文件到U盘时出现空间不足的提示与格式选择

U盘FAT32格式如何转换成NTFS格式

教你让MacOS读写Windows的NTFS格式U盘

使用软碟通Ultraiso制作PE系统盘的U盘系统--两个分区，一个启动系统盘分区，一个任意格式分区

Win10找回自带的Windows照片查看器：打开jpg、png、gif格式的图片

Chrome浏览器数据本地备份

Chrome浏览器数据迁移

在 Windows 上恢复出厂设置后恢复数据 - 恢复您的文件！

linux恢复安卓数据,安卓数据恢复2 - ranfs的个人空间 - OSCHINA - 中文开源技术交流社区...

五笔字根查询接口,五笔输入法数据

Win10系统无法使用VGAPlayer软件播放asf格式和VGA文件

Win11录屏数据保存在哪里？Win11录屏数据保存的位置

发表评论

推荐文章

ChatGPT在综合数据处理中的应用

ubuntu系统无法识别到U盘

Linux | ubuntu-16.04-server-amd64 的安装过程

Inte的lCPU与AMD的CPU架构简介以及名称规则

黑客入门：手机wifi定位原理

热门文章

linux下格式化U盘

把kali装到U盘里

QQ邮箱初始容量不够用扩容方法

三菱fx3uplc恢复出厂设置_清除三菱FX系列PLC密码的三种方法

AMD免驱显卡支持列表

在ubuntu下安装五笔输入法（百度输入法）

crtlc不能复制文件_win10系统按ctrl+c快捷键无法复制文件的操作方法

windows平板找回完整的电源模式，包括高性能模式

恶意手机广告软件如何清除？不用360等所谓杀毒防护软件。

IntelliJ IDEA安装

最新文章

装有XP系统的联想台式电脑忘记密码怎么办？(上文)

电脑更换硬盘＋安装系统

win蓝屏代码

Intel苹果电脑Mac+Win+Linux多重系统启动(+公用分区)终极解决方案(备忘)

蓝屏代码分析

Windows蓝屏错误代码解释

粉丝答疑：电脑蓝屏了怎么办？

计算机主板 也叫系统板或母版,电脑主板与CPU常见故障维修

XP蓝屏代码及解决方法

蓝屏含义原理分析处理方法代码电脑计算机故障系统安全 - 蓝屏知识大全

电脑系统--装系统

蓝屏的调试艺术[转]

dell电脑如何安装ubuntu系统_UbuntuWIN10双系统安装教程 | Dell 中国

error超频 whea win10_win10蓝屏whea_uncorr修复

电脑蓝屏故障分析大全

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

dwg格式文件用什么软件打开电脑如何打开dwg格式的文件

dwg格式的计算机图,dwg是什么文件怎么打开【图文】

计算机主板也叫系统板或母版,电脑主板与CPU常见故障维修

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载