admin管理员组文章数量:1530812
2024年3月26日发(作者:)
一、选择题
:
1.
以下哪一个是
mRNA
条目序列号:
A. J01536
2.
B. NM_15392
D.
全局比对比对整体序列,而局部比对寻找最佳匹配子序
列
14.
假设你有两条远源相关蛋白质序列。为了比较它们,最好使
用下列哪个
BLOSUM
和
PAM
矩阵:
A. BLOSUM45
和
PAM250
B. BLOSUM45
和
PAM1
C. BLOSUM80
和
PAM250
D. BLOSUM10
和
PAM1
15.
与
PAM
打分矩阵比较,
BLOSUM
打分矩阵的最大区别是:
A.
最好用于比对相关性高的蛋白
B.
它是基于近相关蛋白的全局多序列比对
C.
它是基于远相关蛋白的局部多序列比对
D. HTGS
D.
它结合了全局比对和局部比对
16.
如果有一段
DNA
序列,它可能编码多少种蛋白质序列:
A. 1 B. 2 C. 3
D. 6
17.
要在数据库查询一段与某
DNA
序列编码蛋白质最相似的序
列,应选择:
A. blastn
D. tblastp
B. blastp
E. blastx
C. tblastn
C. NP_52280 D. AAB134506
确定某个基因在哪些组织中表达的最直接获取相关信息方
式是:
B. Entrez
B.
不可能
C. LocusLink D. PCR
A. Unigene
3.
4.
5.
6.
A.
可能
一个基因可能对应两个
Unigene
簇吗?
下面哪种数据库源于
mRNA
信息:
A. dbEST
B. PDB C. OMIM D. HTGS
下面哪个数据库面向人类疾病构建:
A. EST B. PDB
C. OMIM
Refseq
和
GenBank
有什么区别:
A. Refseq
包括了全世界各个实验室和测序项目提交的
DNA
序列
B. GenBank
提供的是非冗余序列
C. Refseq
源于
GenBank
,提供非冗余序列信息
D. GenBank
源于
Refseq
7.
8.
如果你需要查询文献信息,下列哪个数据库是你最佳选择:
A. OMIM B. Entrez
C. PubMed
D. PROSITE
比较从
Entrez
和
ExPASy
中提取有关蛋白质序列信息的方
法,下列哪种说法正确:
A.
因为
GenBank
的数据比
EMBL
更多,
Entrez
给出的搜索
结果将更多
B.
搜索结果很可能一样,因为
GenBank
和
EMBL
的序列数
据实际一样
C.
搜索结果应该相当,但是
ExPASy
中的
SwissProt
记录的
18.
为什么
ClustalW
(一个采用了
Feng-Doolittle
渐进比对算法
的程序)不报告
E
值:
A. ClustalW
报告
E
值
C.
使用了局部比对
的依据是:
A.
保证空隙不会引物序列加入而填充
B.
假定进化早期分歧的序列有较高优先级别
C.
假定最近序列空隙应该保留
D.
假定最远序列空隙应该保留
20.
根据分子钟假说:
A.
所有蛋白质都保持一个相同的恒定进化速率
B.
所有蛋白质的进化速率都与化石记录相符合
C.
对于每一个给定的蛋白质,分子进化的速率是逐渐减慢
的,就如同不准时的钟
D.
对于每一个给定的蛋白质,其分子进化的速率在所有的
B.
使用了全局比对
D.
因为是多序列比对
-Doolittle
方法提出“一旦是空隙,永远是空隙”规则
输出格式不同
9.
天冬酰胺、色氨酸和酪氨酸的单字母代码分别对应于:
A. N/W/Y
B. Q/W/Y C. F/W/Y D. Q/N/W
10.
直系同源定义为:
A.
不同物种中具有共同祖先的同源序列
B.
具有较小的氨基酸一致性但是有较大的结构相似性的
同源序列
C.
同一物种中由基因复制产生的同源序列
D.
同一物种中具有相似的并且通常是冗余的功能的同源
序列
11.
下列那个氨基酸最不容易突变:
A.
丙氨酸
C.
甲硫氨酸
B.
谷氨酰胺
D.
半胱氨酸
进化分支上大致是恒定的
21.
系统发生树的两个特征是:
A.
进化分支和进化节点
B.
树的拓扑结构和分支长度
C.
进化分支和树根
D.
序列比对和引导检测方法
22.
下列哪一个是基于字母特征的系统发生分析的算法:
A.
邻位连接法(
NJ
法)
B. Kimura
算法
C.
最大似然法(
ML
)
D.
非加权平均法(
UPGMA
)
23.
基于字母特征和基于距离的系统发生分析的算法的基本差
异是:
A.
基于字母特征的算法没有定义分支序列的中间数据矩
250
矩阵定义的进化距离为两同源序列在给定的时间
有多少百分比的氨基酸发生改变:
A. 1% B. 20%
C. 80%
的不同:
A.
全局比对通常用于比对
DNA
序列,而局部比对通常用于
比对蛋白质序列
B.
全局比对允许间隙,而局部比对不允许
C.
全局比对寻找全局最大化,而局部比对寻找局部最大化
1
D. 250%
13.
下列哪个句子最好的描述了两个序列全局比对和局部比对
阵
B.
基于字母特征的算法可应用于
DNA
或者蛋白质序列,
而基于距离仅能用于
DNA
C.
基于字母特征的算法无法运用简约算法
D.
基于字母特征的算法的进化分支与进化时间无关
24.
一个操作分类单元(
OTU
)可指:
A.
多序列比对 B.
蛋白质序列
C.
进化分支
D.
进化节点
25.
构建进化树最直接的错误来源是:
A.
多序列比对错误
B.
采样的算法差异
C.
假设进化分支是单一起源
D.
尝试推测基因的进化关系
26.
第一个被完整测定的基因组序列是:
A.
啤酒酵母的
3
号染色体
B.
流感病毒 C.
D.
人类基因组
27.
普通的真核生物线粒体基因组编码大约多少个蛋白质:
Ф
X174
C.
端粒中
D.
片段复制区域
36.
从头预测真核基因的原因有:
A.
外显子
/
内含子边界难以确定
B.
内含子长度可能只有几个碱基对
C.
编码区域的
GC
含量并不总是与非编码区相同 D.
以
上三个方面的原因
37.
人类基因组大小大约是多少
Mb
:
A. 130
B. 300
C. 3000
D. 30000
38.
各种重复元件在人类基因组中大约占的百分比为:
A. 5%
B. 25%
C. 50%
D. 95%
39.
蛋白质编码区域占人类基因组百分比是:
A. 1-5%
B. 5-10%
C. 10-20%
D. 20-4-%
40.
人类基因组中
GC
含量高的区域:
A.
基因密度相对较低 B.
基因密度相对较高
C.
基
因密度多变
D.
基因所含密码子相对较少
41.
人类复合孟德尔遗传的基因疾病约占疾病基因的:
A. 1%
B. 10%
C. 50%
D. 60%
42.
单基因疾病趋向于:
A.
在普通人群较少见,并且发生时间较早
B.
在普通人群较常见,并且发生时间较早
C.
在普通人群较少见,并且发生时间较晚
D.
在普通人群较常见,并且发生时间较晚
名词解释
1.
A. 10
B. 100
A.
软件太难使用
C.
1000
D. 10000
28.
根据基因组序列预测蛋白质编码基因的算法的最大问题是:
B.
假阳性率太高,许多不是外显子的序列部分被错误指定
C.
假阳性率太高,许多不是外显子功能未知
D.
假阴性率太高,丢失太多外显子位点
29.
HIV
病毒亚型的系统演化研究可以:
A.
证实
HIV
病毒是由牛病毒演化而来
B.
用于指导开发针对保守蛋白的疫苗
C.
证实哪些人类组织最容易遭受病毒侵染
30.
一个典型的细菌基因组大小约为多少
bp
:
A. 20000
B. 200,000
C. 2000000
要原因是:
A.
细菌拥有不同的密码子
B.
细菌没有细胞核
C.
细菌很少有基因与真核同源
D.
细菌
DNA
的基因含量、组成结构很不一样
32.
下列具有最小基因组的原核生物可能是:
A.
嗜极生物
B.
病毒 C.
胞内细菌
D.
杆菌
D. 20000000
31.
细菌基因组与真核生物基因组分析工具存在较大差异的主
生物信息学:
是一门结合生物技术和信息技术从而揭示生物学中新原
理的科学。
2.
鸟枪法测序:
一种测序方法,包括从基因组中获得随机的、已测序的
克隆片段,并且对初始基因的位置一无所知。
3.
BLAST
:
基本局部相似性比对搜索工具。在序列数据库中快速查找与
给定的序列具有最优局部对准结果的序列的一种序列对算法。
4.
5.
整体联配:
对两个核苷酸或蛋白质序列的全长所进行的比对。
FASTA
:
是第一个被广泛使用的数据库相似性搜索算法,这个程序通
过扫描序列中“词”的小配对,从而寻找最优局部比对。
6.
7.
算法:
在计算机程序中包含的一种固定过程。
序列比对:
将两个或多个序列排在一起,以达到最大一致性的过程(对
于氨基酸序列是比较他们的保守性),这样 评估序列间的相似性和同源
性。
33.
要证明某大肠杆菌中的某个基因是水平转移而来,需要:
A.
分析该大肠杆菌中该基因的
GC
含量与其他基因是否有
很大差异
B.
分析该大肠杆菌中该基因的密码子使用与其他基因是
否有很大差异
C.
系统发生分析该基因与其他物种中基因的同源关系
D.
获取以上三个方面的信息
34.
C
值矛盾是指:
A.
某些基因组中核苷酸
C
的含量少
B.
真核生物基因组大小同编码蛋白质的基因个数没有相关
性
C.
D.
9.
8.
多序列比对:
三个或多个序列之间的比对,如果序列在同一列有相同
结构位置的残基和(或)祖传的残基,则会在该位置插入空位。
最佳联配:
两个序列之间有最高打分值的排列。
10.
空位:
在两条序列比对过程中需要在检测序列或目标序列中引入空位,
以表示插入或删除。
11.
模块替换矩阵:
在替换矩阵中,每个位置的打分是在相关蛋白局部比
对模块中观察到的替换的频率而获得的,每个矩阵被修改成一个特殊的
进化距离。
12.
可接受点突变:
一个用于衡量蛋白质序列的进化突变程度的单位。
13.
互补序列:
能够与其他
DNA
片段根据碱基互补序列(
A
与
T
配对,
G
与
C
配对)形成两练结构的核苷酸序列。
14.
保守序列:
指
DNA
分子中的一个核苷酸片段或者蛋白质中氨基酸片
段,它们在进化过程中基本保持不变。
真核生物基因组大小同屋中的复杂性相关性很小
真核生物基因组大小同进化上的年龄相关性小
35.
成百上千个
4~8bp
的重复序列单元最可能出现在:
A.
散布性重复序列中
B.
假基因中
2
真核生物基因组大小同屋中的复杂性相关性很小
15.
邻接片段:
一组在染色体上有重叠区域的DNA片段的克隆;
16.
支架:
由序列重叠群拼接而成。
17.
注释:
对数据库中原始的DNA碱基序列添加相关信息(比如编码的基
因,氨基酸序列等)或其他的注解。
18.
基因预测:
用计算机程序对可能的基因所做的预测,它是基于DNA片
段与已知基因序列的匹配程度的。
19.
直系同源:
指不同种类的同源序列,他们是在物种的形成事件中从一
个祖先序列独立进化而成的,可能有相似功能,也可能没有。
20.
旁系同源:
是通过类似基因复制的机制产生的同源序列。
21.
替换:
在指定的位置不相同的氨基酸进行连配,如果联配的残基有相
似的物化性质,那么替换是保守的。
25.
结构域:
蛋白质在折叠时候与其它部分相独立的一个不连续部分,他
有自己独特的功能。
26.
开放阅读框(
ORF
):
位于DNA或RNA上起始密码子与终止密码子
之间的序列。
27.
表达谱:
一个显示某个同源家族中指定位置打分值和空位罚分的表格,
可以用于搜索序列数据库。
28.
分子钟:
对于每一个给定基因(或蛋白质)其分子进化率大致是恒定
的。
29.
系统发生:
是指生物种族的进化历史,亦即生物体在整个进化谱
30.
分子进化树:
在研究生物进化和系统分类中,常用一种类似树状分支
的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形成
22.
表达序列标签(
EST
):
一种短的DNA片段,是cDNA分子的一部分,
为系统发育树。
可用来鉴定基因,通常用于基因定位和基因图谱中。
23.
多个个体之间DNA的差异叫多态性。
24.
多态性:
序列模式:
蛋白质序列中短的保守区域,它们是结构域中保守性很高
的部分。
2.
请论述生物信息学的研究内容有哪些?
问答题
1) 生物分子数据的收集与管理:①基因组数据
1.
生物信息学的大体定义是什么?其发展历程如
库;②蛋白质序列数据库;③蛋白质结构数据库。
何?
2) 数据库搜索及序列比较
(
1
) 以计算机为工具,通过对生物学实验数据的
3) 基因组序列分析:①遗传语言分析;②基因组
获取、加工、存储、检索与分析,达到揭示数据结构分析;③基因识别;④基因功能注释;⑤基因
若蕴含的生物学意义从而解读生命活动规律的目调控信息分析;⑥基因组比较。
的的一门工程技术学科,同时是一种重要的研究
4) 基因表达数据的分析与处理:分析是目前生物
开发平台与工具。目前主要的研究方向有:序列信息学研究的热点和重点。 处理主要是进行聚类
比对、基因识别、基因重组、蛋白质结构预测、分析,将表达模式相似的基因聚为一类,在此基础
基因表达、蛋白质反应的预测,以及建立进化模上寻找相关基因,分析基因的功能。
型。
5) 蛋白质结构与功能预测:蛋白质的生物功能由
(
2
) 发展历程: 蛋白质的结构所决定,蛋白质结构预测成为了解蛋
20
世纪
50
年代,生物信息学开始孕育;
20
世
白质功能的重要途径。蛋白质结构预测分为:(
1
)
纪
60
年代,生物分子信息在概念上将计算生物学二级结构预测;(
2
)空间结构预测。
和计算机科学联系起来;
20
世纪
70
年代,生物
6) 基因-蛋白质相互作用网络
信息学的真正开端;④
20
世纪
70
年代到
80
年代
7) 整个系统调控网络
初期 ,出现了一系列著名的序列比较方法和生物
3.
请叙述构建系统进化树的一般步骤。
信息分析方法;⑤
20
世纪
80
年代以后,出现一批
1) 选择合适的分子序列——可以用DNA、RNA或
生物信息服务机构和生物信息数据库;⑥
20
世纪蛋白质序列数据来构建。
90年代后 ,HGP促进生物信息学的迅速发展。 2) 多序列比对——是生物信息学中的核心问题之
一,也是系统发育分析中的一个基础步骤和关键环
节。„„的结果将直接影响系统发育分析的结论。
3) 选择合适的建树方法——最大简约法主要适用
于序列相似性很高的情况;距离法在序列具有比较
高的相似性时适用;而最大似然法和贝叶斯法可用
于任何相关的数据序列集合。
4) 系统发育树的评估——一棵用距离法、最大简
约法或最大似然法构建的系统发育树可看做是一
个点估计,对这个点估计最好加上一个可靠性测
度,如重复抽样检验,內枝检验。
3
4.
NCBI
的
Entrez
检索包含了哪些方面的信息:
Entrez是NCBI为用户提供整合的访问序列、定位、
分类及结构数据的搜索和检索的系统,是一个用
以整合
NCBI
数据库中信息的搜寻和检索的工具。
可以检索以下与
NCBI
链接的基因序列数据库的
分子生物数据和书目文献资料——
(1) GenBank、EMBL、
DDBJ
中的DNA序列;
(2) SWISS-PROT、PIR、PRF、PDB
PD
B中的蛋白质序
列以及
DNA
序列数据库中翻译的蛋白质序列;
(3) 基因和染色体图像数据;
(4) PDB以及收入NCBI分子模型数据库(MMDB)
的蛋白质三维结构;
(5) 通过PubMed检索
Medline
和PreMedline数据
库。
5.
BLAST
系列软件分别用哪些数据搜索何种
数据库?
真核基因结构注释包括哪些内容?
相关的软件
6.
7.
请概述基因组注释的大体流程。
1
) 进行蛋白质编码基因的注释:
A
、基于证据的
基因注释(转录物比对,蛋白质比对);
B
、构
建基因预测训练集;
C
、从头开始的基因预测;
所依据的理论基础是什么?
1
) 一个完整的注释包括在基因组中鉴定出各
类功能元件,如编码蛋白质的基因、
RNA
基因、
重复序列和假基因等,并确定这些元件所对应
的生物学功能:
1
)确定蛋白质编码基因及其外
显子
-
内含子结构(基因结构),并推断其生物学
功能;
2
)进行
RNA
基因的预测,并推断其功
能和相互作用靶标分子;
3
)确定基因组中重复
序列的含量和分类;
4
)进行假基因的识别和分
类等。
2
) 如图
6.
D
、
EVM
基因预测自动整合系统;
E
、基因功能
注释(寻找同源基因,结构域和
GO
注释,代谢
通路注释)。
2
) 进行
RNA
基因的注释:
A
、
rRNA
预测;
B
、
tRNA
预测;
C
、
snoRNA
预测;
D
、
miRNA
和
snRNA
的预测。
3
) 进行对重复序列的注释:
A
、串联重复序列的
注释;
B
、转座元件的注释(构建
de novo TE
库,
de novo TE
库的分类,基因组水平上的转座元件
的注释)。
4
) 对假基因进行注释
4
版权声明:本文标题:2012生物信息学题库 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://m.elefans.com/xitong/1711385844a307106.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论