admin管理员组

文章数量:1530812

2024年3月26日发(作者:)

一、选择题

:

1.

以下哪一个是

mRNA

条目序列号:

A. J01536

2.

B. NM_15392

D.

全局比对比对整体序列,而局部比对寻找最佳匹配子序

14.

假设你有两条远源相关蛋白质序列。为了比较它们,最好使

用下列哪个

BLOSUM

PAM

矩阵:

A. BLOSUM45

PAM250

B. BLOSUM45

PAM1

C. BLOSUM80

PAM250

D. BLOSUM10

PAM1

15.

PAM

打分矩阵比较,

BLOSUM

打分矩阵的最大区别是:

A.

最好用于比对相关性高的蛋白

B.

它是基于近相关蛋白的全局多序列比对

C.

它是基于远相关蛋白的局部多序列比对

D. HTGS

D.

它结合了全局比对和局部比对

16.

如果有一段

DNA

序列,它可能编码多少种蛋白质序列:

A. 1 B. 2 C. 3

D. 6

17.

要在数据库查询一段与某

DNA

序列编码蛋白质最相似的序

列,应选择:

A. blastn

D. tblastp

B. blastp

E. blastx

C. tblastn

C. NP_52280 D. AAB134506

确定某个基因在哪些组织中表达的最直接获取相关信息方

式是:

B. Entrez

B.

不可能

C. LocusLink D. PCR

A. Unigene

3.

4.

5.

6.

A.

可能

一个基因可能对应两个

Unigene

簇吗?

下面哪种数据库源于

mRNA

信息:

A. dbEST

B. PDB C. OMIM D. HTGS

下面哪个数据库面向人类疾病构建:

A. EST B. PDB

C. OMIM

Refseq

GenBank

有什么区别:

A. Refseq

包括了全世界各个实验室和测序项目提交的

DNA

序列

B. GenBank

提供的是非冗余序列

C. Refseq

源于

GenBank

,提供非冗余序列信息

D. GenBank

源于

Refseq

7.

8.

如果你需要查询文献信息,下列哪个数据库是你最佳选择:

A. OMIM B. Entrez

C. PubMed

D. PROSITE

比较从

Entrez

ExPASy

中提取有关蛋白质序列信息的方

法,下列哪种说法正确:

A.

因为

GenBank

的数据比

EMBL

更多,

Entrez

给出的搜索

结果将更多

B.

搜索结果很可能一样,因为

GenBank

EMBL

的序列数

据实际一样

C.

搜索结果应该相当,但是

ExPASy

中的

SwissProt

记录的

18.

为什么

ClustalW

(一个采用了

Feng-Doolittle

渐进比对算法

的程序)不报告

E

值:

A. ClustalW

报告

E

C.

使用了局部比对

的依据是:

A.

保证空隙不会引物序列加入而填充

B.

假定进化早期分歧的序列有较高优先级别

C.

假定最近序列空隙应该保留

D.

假定最远序列空隙应该保留

20.

根据分子钟假说:

A.

所有蛋白质都保持一个相同的恒定进化速率

B.

所有蛋白质的进化速率都与化石记录相符合

C.

对于每一个给定的蛋白质,分子进化的速率是逐渐减慢

的,就如同不准时的钟

D.

对于每一个给定的蛋白质,其分子进化的速率在所有的

B.

使用了全局比对

D.

因为是多序列比对

-Doolittle

方法提出“一旦是空隙,永远是空隙”规则

输出格式不同

9.

天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:

A. N/W/Y

B. Q/W/Y C. F/W/Y D. Q/N/W

10.

直系同源定义为:

A.

不同物种中具有共同祖先的同源序列

B.

具有较小的氨基酸一致性但是有较大的结构相似性的

同源序列

C.

同一物种中由基因复制产生的同源序列

D.

同一物种中具有相似的并且通常是冗余的功能的同源

序列

11.

下列那个氨基酸最不容易突变:

A.

丙氨酸

C.

甲硫氨酸

B.

谷氨酰胺

D.

半胱氨酸

进化分支上大致是恒定的

21.

系统发生树的两个特征是:

A.

进化分支和进化节点

B.

树的拓扑结构和分支长度

C.

进化分支和树根

D.

序列比对和引导检测方法

22.

下列哪一个是基于字母特征的系统发生分析的算法:

A.

邻位连接法(

NJ

法)

B. Kimura

算法

C.

最大似然法(

ML

D.

非加权平均法(

UPGMA

23.

基于字母特征和基于距离的系统发生分析的算法的基本差

异是:

A.

基于字母特征的算法没有定义分支序列的中间数据矩

250

矩阵定义的进化距离为两同源序列在给定的时间

有多少百分比的氨基酸发生改变:

A. 1% B. 20%

C. 80%

的不同:

A.

全局比对通常用于比对

DNA

序列,而局部比对通常用于

比对蛋白质序列

B.

全局比对允许间隙,而局部比对不允许

C.

全局比对寻找全局最大化,而局部比对寻找局部最大化

1

D. 250%

13.

下列哪个句子最好的描述了两个序列全局比对和局部比对

B.

基于字母特征的算法可应用于

DNA

或者蛋白质序列,

而基于距离仅能用于

DNA

C.

基于字母特征的算法无法运用简约算法

D.

基于字母特征的算法的进化分支与进化时间无关

24.

一个操作分类单元(

OTU

)可指:

A.

多序列比对 B.

蛋白质序列

C.

进化分支

D.

进化节点

25.

构建进化树最直接的错误来源是:

A.

多序列比对错误

B.

采样的算法差异

C.

假设进化分支是单一起源

D.

尝试推测基因的进化关系

26.

第一个被完整测定的基因组序列是:

A.

啤酒酵母的

3

号染色体

B.

流感病毒 C.

D.

人类基因组

27.

普通的真核生物线粒体基因组编码大约多少个蛋白质:

Ф

X174

C.

端粒中

D.

片段复制区域

36.

从头预测真核基因的原因有:

A.

外显子

/

内含子边界难以确定

B.

内含子长度可能只有几个碱基对

C.

编码区域的

GC

含量并不总是与非编码区相同 D.

上三个方面的原因

37.

人类基因组大小大约是多少

Mb

A. 130

B. 300

C. 3000

D. 30000

38.

各种重复元件在人类基因组中大约占的百分比为:

A. 5%

B. 25%

C. 50%

D. 95%

39.

蛋白质编码区域占人类基因组百分比是:

A. 1-5%

B. 5-10%

C. 10-20%

D. 20-4-%

40.

人类基因组中

GC

含量高的区域:

A.

基因密度相对较低 B.

基因密度相对较高

C.

因密度多变

D.

基因所含密码子相对较少

41.

人类复合孟德尔遗传的基因疾病约占疾病基因的:

A. 1%

B. 10%

C. 50%

D. 60%

42.

单基因疾病趋向于:

A.

在普通人群较少见,并且发生时间较早

B.

在普通人群较常见,并且发生时间较早

C.

在普通人群较少见,并且发生时间较晚

D.

在普通人群较常见,并且发生时间较晚

名词解释

1.

A. 10

B. 100

A.

软件太难使用

C.

1000

D. 10000

28.

根据基因组序列预测蛋白质编码基因的算法的最大问题是:

B.

假阳性率太高,许多不是外显子的序列部分被错误指定

C.

假阳性率太高,许多不是外显子功能未知

D.

假阴性率太高,丢失太多外显子位点

29.

HIV

病毒亚型的系统演化研究可以:

A.

证实

HIV

病毒是由牛病毒演化而来

B.

用于指导开发针对保守蛋白的疫苗

C.

证实哪些人类组织最容易遭受病毒侵染

30.

一个典型的细菌基因组大小约为多少

bp

A. 20000

B. 200,000

C. 2000000

要原因是:

A.

细菌拥有不同的密码子

B.

细菌没有细胞核

C.

细菌很少有基因与真核同源

D.

细菌

DNA

的基因含量、组成结构很不一样

32.

下列具有最小基因组的原核生物可能是:

A.

嗜极生物

B.

病毒 C.

胞内细菌

D.

杆菌

D. 20000000

31.

细菌基因组与真核生物基因组分析工具存在较大差异的主

生物信息学:

是一门结合生物技术和信息技术从而揭示生物学中新原

理的科学。

2.

鸟枪法测序:

一种测序方法,包括从基因组中获得随机的、已测序的

克隆片段,并且对初始基因的位置一无所知。

3.

BLAST

基本局部相似性比对搜索工具。在序列数据库中快速查找与

给定的序列具有最优局部对准结果的序列的一种序列对算法。

4.

5.

整体联配:

对两个核苷酸或蛋白质序列的全长所进行的比对。

FASTA

是第一个被广泛使用的数据库相似性搜索算法,这个程序通

过扫描序列中“词”的小配对,从而寻找最优局部比对。

6.

7.

算法:

在计算机程序中包含的一种固定过程。

序列比对:

将两个或多个序列排在一起,以达到最大一致性的过程(对

于氨基酸序列是比较他们的保守性),这样 评估序列间的相似性和同源

性。

33.

要证明某大肠杆菌中的某个基因是水平转移而来,需要:

A.

分析该大肠杆菌中该基因的

GC

含量与其他基因是否有

很大差异

B.

分析该大肠杆菌中该基因的密码子使用与其他基因是

否有很大差异

C.

系统发生分析该基因与其他物种中基因的同源关系

D.

获取以上三个方面的信息

34.

C

值矛盾是指:

A.

某些基因组中核苷酸

C

的含量少

B.

真核生物基因组大小同编码蛋白质的基因个数没有相关

C.

D.

9.

8.

多序列比对:

三个或多个序列之间的比对,如果序列在同一列有相同

结构位置的残基和(或)祖传的残基,则会在该位置插入空位。

最佳联配:

两个序列之间有最高打分值的排列。

10.

空位:

在两条序列比对过程中需要在检测序列或目标序列中引入空位,

以表示插入或删除。

11.

模块替换矩阵:

在替换矩阵中,每个位置的打分是在相关蛋白局部比

对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的

进化距离。

12.

可接受点突变:

一个用于衡量蛋白质序列的进化突变程度的单位。

13.

互补序列:

能够与其他

DNA

片段根据碱基互补序列(

A

T

配对,

G

C

配对)形成两练结构的核苷酸序列。

14.

保守序列:

DNA

分子中的一个核苷酸片段或者蛋白质中氨基酸片

段,它们在进化过程中基本保持不变。

真核生物基因组大小同屋中的复杂性相关性很小

真核生物基因组大小同进化上的年龄相关性小

35.

成百上千个

4~8bp

的重复序列单元最可能出现在:

A.

散布性重复序列中

B.

假基因中

2

真核生物基因组大小同屋中的复杂性相关性很小

15.

邻接片段:

一组在染色体上有重叠区域的DNA片段的克隆;

16.

支架:

由序列重叠群拼接而成。

17.

注释:

对数据库中原始的DNA碱基序列添加相关信息(比如编码的基

因,氨基酸序列等)或其他的注解。

18.

基因预测:

用计算机程序对可能的基因所做的预测,它是基于DNA片

段与已知基因序列的匹配程度的。

19.

直系同源:

指不同种类的同源序列,他们是在物种的形成事件中从一

个祖先序列独立进化而成的,可能有相似功能,也可能没有。

20.

旁系同源:

是通过类似基因复制的机制产生的同源序列。

21.

替换:

在指定的位置不相同的氨基酸进行连配,如果联配的残基有相

似的物化性质,那么替换是保守的。

25.

结构域:

蛋白质在折叠时候与其它部分相独立的一个不连续部分,他

有自己独特的功能。

26.

开放阅读框(

ORF

):

位于DNA或RNA上起始密码子与终止密码子

之间的序列。

27.

表达谱:

一个显示某个同源家族中指定位置打分值和空位罚分的表格,

可以用于搜索序列数据库。

28.

分子钟:

对于每一个给定基因(或蛋白质)其分子进化率大致是恒定

的。

29.

系统发生:

是指生物种族的进化历史,亦即生物体在整个进化谱

30.

分子进化树:

在研究生物进化和系统分类中,常用一种类似树状分支

的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形成

22.

表达序列标签(

EST

):

一种短的DNA片段,是cDNA分子的一部分,

为系统发育树。

可用来鉴定基因,通常用于基因定位和基因图谱中。

23.

多个个体之间DNA的差异叫多态性。

24.

多态性:

序列模式:

蛋白质序列中短的保守区域,它们是结构域中保守性很高

的部分。

2.

请论述生物信息学的研究内容有哪些?

问答题

1) 生物分子数据的收集与管理:①基因组数据

1.

生物信息学的大体定义是什么?其发展历程如

库;②蛋白质序列数据库;③蛋白质结构数据库。

何?

2) 数据库搜索及序列比较

1

) 以计算机为工具,通过对生物学实验数据的

3) 基因组序列分析:①遗传语言分析;②基因组

获取、加工、存储、检索与分析,达到揭示数据结构分析;③基因识别;④基因功能注释;⑤基因

若蕴含的生物学意义从而解读生命活动规律的目调控信息分析;⑥基因组比较。

的的一门工程技术学科,同时是一种重要的研究

4) 基因表达数据的分析与处理:分析是目前生物

开发平台与工具。目前主要的研究方向有:序列信息学研究的热点和重点。 处理主要是进行聚类

比对、基因识别、基因重组、蛋白质结构预测、分析,将表达模式相似的基因聚为一类,在此基础

基因表达、蛋白质反应的预测,以及建立进化模上寻找相关基因,分析基因的功能。

型。

5) 蛋白质结构与功能预测:蛋白质的生物功能由

2

) 发展历程: 蛋白质的结构所决定,蛋白质结构预测成为了解蛋

20

世纪

50

年代,生物信息学开始孕育;

20

白质功能的重要途径。蛋白质结构预测分为:(

1

60

年代,生物分子信息在概念上将计算生物学二级结构预测;(

2

)空间结构预测。

和计算机科学联系起来;

20

世纪

70

年代,生物

6) 基因-蛋白质相互作用网络

信息学的真正开端;④

20

世纪

70

年代到

80

年代

7) 整个系统调控网络

初期 ,出现了一系列著名的序列比较方法和生物

3.

请叙述构建系统进化树的一般步骤。

信息分析方法;⑤

20

世纪

80

年代以后,出现一批

1) 选择合适的分子序列——可以用DNA、RNA或

生物信息服务机构和生物信息数据库;⑥

20

世纪蛋白质序列数据来构建。

90年代后 ,HGP促进生物信息学的迅速发展。 2) 多序列比对——是生物信息学中的核心问题之

一,也是系统发育分析中的一个基础步骤和关键环

节。„„的结果将直接影响系统发育分析的结论。

3) 选择合适的建树方法——最大简约法主要适用

于序列相似性很高的情况;距离法在序列具有比较

高的相似性时适用;而最大似然法和贝叶斯法可用

于任何相关的数据序列集合。

4) 系统发育树的评估——一棵用距离法、最大简

约法或最大似然法构建的系统发育树可看做是一

个点估计,对这个点估计最好加上一个可靠性测

度,如重复抽样检验,內枝检验。

3

4.

NCBI

Entrez

检索包含了哪些方面的信息:

Entrez是NCBI为用户提供整合的访问序列、定位、

分类及结构数据的搜索和检索的系统,是一个用

以整合

NCBI

数据库中信息的搜寻和检索的工具。

可以检索以下与

NCBI

链接的基因序列数据库的

分子生物数据和书目文献资料——

(1) GenBank、EMBL、

DDBJ

中的DNA序列;

(2) SWISS-PROT、PIR、PRF、PDB

PD

B中的蛋白质序

列以及

DNA

序列数据库中翻译的蛋白质序列;

(3) 基因和染色体图像数据;

(4) PDB以及收入NCBI分子模型数据库(MMDB)

的蛋白质三维结构;

(5) 通过PubMed检索

Medline

和PreMedline数据

库。

5.

BLAST

系列软件分别用哪些数据搜索何种

数据库?

真核基因结构注释包括哪些内容?

相关的软件

6.

7.

请概述基因组注释的大体流程。

1

) 进行蛋白质编码基因的注释:

A

、基于证据的

基因注释(转录物比对,蛋白质比对);

B

、构

建基因预测训练集;

C

、从头开始的基因预测;

所依据的理论基础是什么?

1

) 一个完整的注释包括在基因组中鉴定出各

类功能元件,如编码蛋白质的基因、

RNA

基因、

重复序列和假基因等,并确定这些元件所对应

的生物学功能:

1

)确定蛋白质编码基因及其外

显子

-

内含子结构(基因结构),并推断其生物学

功能;

2

)进行

RNA

基因的预测,并推断其功

能和相互作用靶标分子;

3

)确定基因组中重复

序列的含量和分类;

4

)进行假基因的识别和分

类等。

2

) 如图

6.

D

EVM

基因预测自动整合系统;

E

、基因功能

注释(寻找同源基因,结构域和

GO

注释,代谢

通路注释)。

2

) 进行

RNA

基因的注释:

A

rRNA

预测;

B

tRNA

预测;

C

snoRNA

预测;

D

miRNA

snRNA

的预测。

3

) 进行对重复序列的注释:

A

、串联重复序列的

注释;

B

、转座元件的注释(构建

de novo TE

库,

de novo TE

库的分类,基因组水平上的转座元件

的注释)。

4

) 对假基因进行注释

4

本文标签: 序列基因蛋白质