-
生物信息学题库
一、名词解释
1
、
生物信息学
:
生物分子信息的获
取、存贮、分析和利用
;
以数学为基础,应用计算机技术,
p>
研究生物学数据的科学。
2
、
相似性
(similarity)
:
相似性是指序列比对过程中用来描述检测序列和目标序列之间相同
DNA
碱基或氨基酸残基顺序所占比例的高低。
3
、
同源性
(
homolo
gy)
:
生物进化过程中源于同一祖先的分支之间的关系。
4
、
BLAST(Basic
Local Alignment Search Tool)
:
基本局部比对搜索工具,用于相似性搜索的工
具,对需要进行检索的序列与数据库中的
每个序列做相似性比较。
5
、
p>
HMM
隐马尔可夫模型
:
< br>是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,
插入和缺失状
态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。
6
、
一级数据库
:
一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理
< br>和注释
(
投稿文章首先要将核苷酸序列或蛋白质序列提交
到相应的数据库中
)
7
、
二级数据库
:
对原始生物分子数据进行整理、分
类的结果,是在一级数据库、实验数据和理
论分析的基础上针对特定的应用目标而建立的
。
8
、
G
enBank:
是具有目录和生物学注释的核酸序列综合公共
数据库,由
NCBI
构建和维护。
<
/p>
9
、
EMBL:EMBL
实验室:欧洲分子生物学实验室。
EMBL
数据库:是非盈利性学术组织
EMBL
建立的综合性数据库,
EMBL
核酸
数据库是欧洲最重要的核酸序列数据库,它定期地
与美国的
GenBank
、日本的
DDBJ
数据库中的数
据进行交换,并同步更新。
10<
/p>
、
DDBJ:
日本核酸序列数据库,是亚洲唯一的核酸序列数据库。
p>
11
、
Entrez
:
是由
NCBI
主持的一个数据库检索系统,它包括核酸,蛋白以及
Medline
文摘数
据库,在这三个数据库中建立了非常完善的联系。
12
、
SRS(sequence
retrieval
system)
:
序列查询系统,是
EBI
提供的多数据库查询工具之一。
有与
Entrez
类似的功能,还提供一系列的序列分析工具,可
以直接进行在线序列分析处理。
13
、
EST
:
收集大量
cDAN
或
EST
序列以及其
他相关信息,目前最大的公共表达序列数据库。
14
、
GSS
:GeneBank
数据库的一部分,收集基因组
DNA
克隆的测序序列。
15
、
G
EO
:
基因表达精选集是一个储存高通量功能基因组学数据的数
据库。
16
、
SCOP
数据库
:
提供关于已知结
构的蛋白质之间结构和进化关系的详细描述,包括蛋白质
结构数据库
PDB
中的所有条目。
17
、
PROSITE
:
是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助
识
别蛋白质家族的统计特征。
18
、
RefSeq:
是一个收录注释过的非冗余转录本、蛋白质和基因组序列的数据库。
19
、
结构域
Str
ucture
domain:
结构域,是在蛋白质三级结构中
介于二级和三级结构之间的可
以明显区分但又相对独立的折叠单元。
20
、
开放阅读框
ORF:
开放阅读框,位于
DNA
< br>或
RNA
上起始密码子与终止密码子之间的序列。
21
、
启动子
p>
Promoter:
启动子是基因的一个组成部分,是位于结构基因
5?
端上游区的
DNA
序
列,控制基因表达
(
转录<
/p>
)
的起始时间和表达的程度。
22
、
3’UTR:
3
?
非翻译区的缩写,真核生物的转录终止信号是在
3?
非翻译区的
:
polyA
。
23
、
CpG island:
是在哺乳动物基因组中的一个
500bp
到<
/p>
300bp
的区域,富含
GC
。
24
、
模体
Motif:
又称模体,蛋白质序列中短的保守
区域,它们是结构域中保守性很高的部分。
25
、
PDB(Protein
Data Bank):
蛋白质结构数据库,是国际上著名的生物大分子结构数据库,由
美国
Brookhaven
国家实验室
建立。
26
、
打分矩阵
(scoring
matrix):
在相似性检索中对序列两两比对的质量评估方法。包括基于理
论
(
如考虑核酸和氨基酸之间的类似性
)
和实际进化距离
(
如
PAM
)
两类方法。
27
< br>、
遗传连锁图
:
又叫遗传图谱<
/p>
(genetic
map)
是以具有遗
传多态性的遗传标记为
“
路标
”
,以遗传
学距离为图距的基因组图。
28
、
蛋白质组
(p
roteom)
:
是指一个基因组、一种生物或一个细胞
/
组织的基因组所表达的全套蛋
白质。
29
、
基因组学<
/p>
:
研究生物基因组和如何利用基因的一门学问。
< br>
30
、
比较基因组学
:
是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测
其
他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。
31
、
FA
STA
序列格式
:
是将
DNA
或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基
酸字符串,大于号
(>)
表示一个新文件的开始,其
他无特殊要求。
32
、
genbank
序列格式
:
是
GenBank
数据库的基本信息单位,是最为广泛的生物
信息学序列格
式之一。该文件格式按域划分为
4
个部分
:
第一部分包含整个记录的信息
(
描述符
);
第二部分包
p>
含注释
;
第三部分是引文区,提供了这个记
录的科学依据
;
第四部分是核苷酸序列本身,以
“//”
结
尾。
33
、
查询序列
(que
ry
sequence):
也称被检索序列,用来在数据库中
检索并进行相似性比较的序
列。
34
、
空位
(gap)
:
在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对
p>
结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。
P29
35
、
空位罚分
:
空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的
引入不
代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果
。
P37
36
、
< br>E
值
:
衡量序列之间相似性是否
显著的期望值。
E
值大小说明了可以找到与查询序列
(query)
相匹配的随机或无关序列的概率,
E
值越接近零,越不可能找到其他匹配序列,
E
值越小意味
着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生
物学意义。
P95
37
、
低复杂度区域
:
BLAST
搜索的过滤选项。指序列中包含的重复度高的区域,如
poly(A)
。
38
、
点矩阵
(dot
matrix):
< br>构建一个二维矩阵,其
X
轴是一条序列,
Y
轴是另一个序列,然后在
2
个序列相同碱基的对应位置
(x
,
y)
加点,如果两条序列完全相同则会形成一条主对角线,如
果两条
序列相似则会出现一条或者几条直线
;
如果完全没有相似性则不
能连成直线。
39
、
多序列比对
:
通过序列的相似性检索得到许多相似性序
列,将这些序列做一个总体的比对,
以观察它们在结构上的异同,来回答大量的生物学问
题。
40
、
分子钟
:
认为分子进化速率是恒定的或者几乎恒定的假说,从而
可以通过分子进化推断出
物种起源的时间。
< br>41
、
系统发育分析
:
通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断
不同物种或基因之间的进化关系。
42
、
进化树的二歧分叉结构
:
指在进化
树上任何一个分支节点,一个父分支都只能被分成两个
子分支。
43
、
系统发育图
:
用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。
44
、
直系同源
:<
/p>
指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或
不同的功能。
(
书
:
在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。
)
45
、
旁系
(
并系
)
同源
:
指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因
p>
在功能上可能发生了改变。
(
书
:
由于基因重复事件产生的相似序列。
)
p>
46
、
外类群
:<
/p>
是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。
47
、
除权配对算法
(UPGMA):
最初,每个序列归为一类,然后找到距离最近的两类将其归
为一
类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。
p>
48
、
邻接法<
/p>
(neighbor-joining
method):
是一种不仅仅计算两两比对距离,还对整个树的长度进
行最小化,从而
对树的拓扑结构进行限制,能够克服
UPGMA
算法要求进化速
率保持恒定的缺
陷。
49
、
最大简约法
(MP):
在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替
换的进化树。
p>
50
、
最大似然
法
(ML):
它对每个可能的进化位点分配一个概率,然后综合
所有位点,找到概率
最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析
评估,并在此基础上构建
系统发育树。
51
、
自举法检验
(Bootstr
ap):
放回式抽样统计法。通过对数据集多次重复取样,构建多个进化
树,用来检查给定树的分枝可信度。
52
、
密码子偏好性
(codon
< br>bias):
氨基酸的同义密码子的使用频率与相应的同功
tRNA
的水平相
一致,大多数高效表达的基因仅使用那些含
量高的同功
tRNA
所对应的密码子,这种效应称为
密码子偏好性。
53
、
基因预测的从头分析
:
依据综合利用基
因的特征,如剪接位点,内含子与外显子边界,调
控区,预测基因组序列中包含的基因。
54
、
超家
族
:
进化上相关,功能可能不同的一类蛋白质。
55
、
序列表谱
(profile):
是一种特殊位点或模体序列,在多序列比较的基础上
,氨基酸的权值和
空位罚分的表格。
56
、
PAM
矩阵
:
PAM
指可接受突变百分率。一个氨基酸在进化中变成另
一种氨基酸的可能性,
通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间
的比对。一个
PAM
单位是
蛋白质序列
平均发生
1%
的替代量需要的进化时间。
57
、
BLOSUM
矩阵
:
模块替代矩阵。矩阵中的每个位点的分值来自
蛋白比对的局部块中的替代
频率的观察。每个矩阵适合特定的进化距离。例如,在
BLOSUM62
矩阵中,比对的分值来自
不
超过
62%
一致率的一组序列。
58
、
PSI-BLAST:
位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵
(
scoring matrix)
探测远缘相关的蛋白。
p>
59
、
RefSeq:
给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的
Genban
k
序列。
60
、
有根树
:
单一的节点能指派为共同
的祖先,从祖先节点只有唯一的路径历经进化到达其他
任何节点。
61
、
无根树
:
只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,<
/p>
可以在无根树中指派根节点。
62
p>
、
一致树
(consensus
tree):
在同一算法中产生多个最优树,合并这些最优树得到的树即
一致
树。
63
、
分子进化树
(molecular
evolutionary
tree)
:
在研究生物进化和系统分类中,常用一种类似
树状分支的图
形来概括各种
(
类
)
< br>生物之间的亲缘关系,这种树状分支的图形成为系统发育树
(phylogene
tic tree)
。
二、填空
1
、
1970
年
Needleman<
/p>
和
Wunsch
提出了著名的序列比对算
法,是生物信息学发展中最重要的
贡献
2
、
20
世纪
90
年代后,
HGP
促进生物信息学的迅速发展
3
、
HGP
选择作为研究人类的四大
p>
“
模式生物
”
有酵
母、线虫、果蝇、小鼠
4
、在人的遗
传连锁图谱上,
1cM
的物理距离大约为
1000000
核苷酸
5
、基因组测序的基本策略有逐个克隆法和全基因组鸟枪法
6
、国际上三大生物信息学中心有
:NCBI
,
EBI
和
CIB
7
、国际上最重要的核酸初级序列数据库有
: GeneBank
,
EMBL
和
DDBJ
8
、国际上最重要的蛋白质序列数据库
:SWISS-
PROT
和
PIR
9
、常用的序列搜索方法
:FASTA
和
BLAST
10
、目前由
N
CBI
维护的大型文献资源是
PubMed
11
、数据库常用的数据检索工具
:Entrez
p>
,
SRS
12
、多序列联配的常用软件
:Clustal
13
、在生物学中常用的两种动态规划算法分别有
:Needleman-
Wunsch
和
Smith-Waterman
14
、在用
BLAST
进行
核酸序列查询时,查询序列和数据库中被比对上序列之间是否显著性相
似可用
E
值来度量,
E
值越大,
相似性越小,
E
值越小,相似性越大。生物学意义上相似的两<
/p>
条序列,其
E
值远小于
< br>1.0
15
、写出以下标注的含义
:LOCUS
是基因座位,
DEFINITION
是基因定义,
ACCESSION
是登
录号,
VERSION
是版本号,
SOURCE
是来源物种
16
、检测原核生物
ORF
的程序
:NCBI-ORF finder
17
、二级结构的状态有
:
α
螺旋,
β
折叠,
p>
β
转角,无规则卷曲
18
、对于任一
DNA
序列
(
或
cDNA
序列<
/p>
)
,可能存在
6
种不同的阅读框,其中
3
个为正向的,
3
个为反向的
19
、原核生物启动子有两段保守序列,即
-10
区左右的<
/p>
TATAAT
,以及
-35
区左右的
TTGACA
,
它们为
RNA
聚合酶结合位点和识别位点
2
0
、蛋白质同源结构建模可以使用在线的免费预测工具
swis
s-model
21.
系统发育树主要的三种构建方法
:
距离矩阵法、最大简约法、最大似然法。
22
、可使用
Oligo6
软件进
行引物设计。
23.
写出以下
p>
pubmed
检索时常用的限制字段的含义
:[au]
作者、
[ti]
标题、<
/p>
[dp]
发表日期、
[affiliation]
地址
三、选择
1
、
( C
)
是现在国际上最主要的核酸序列数据库
A. EBIB. PDB C. GenBank D. NCBI
2
、基本局部比对搜素工具是
( C
)
A. Mega B. ClustalW C. BLAST D. GCG
3
、单核苷酸的标记是
( B )
A. RFLP B. SNP C. SSR D. RAPD
< br>4
、提交序列到
GenBank
中,使用的程序可以是
( D )
A. Entrez
B. SRS C. Medline D. BankIt
5
、人类基因组计划没有计划完成的几张图谱分别是
( D )
A.
物理图谱
B.
遗传图谱
C.
序列图谱
D.
生物图谱
6
、最常用的序列相似性查询工具是
(
B )
A. PIR -PROT
7
、下列哪些分子类型不属于非蛋白质编码区
( C )
< br>A.
内含子
B.
卫星
DNA C.
外显子
D.
启动子
8
、卫星
DNA
的多态性是由
( B
)
所决定的。
A.
DNA
点突变个数
B.
限制性内切酶识别序列个数不同
C.
DNA
的二级结构不同
D.
重复单位不同
9
、真核基因组特点不包括
( B )
A.
基因组大,巨大的非编码序列,重复序列占了绝大部分
B.
基因结构复杂,有显著长度的开放阅读框
C.
存在可变剪接
D. CpG
岛
< br>10
、
PDB
是蛋白质的
( B )
A.
分类数据库
B.
结构数据库
C.
核酸数据库
D.
模体数据库
1
1
、根据研究发现,人类基因组中真正编码蛋白质的区域仅占
D
NA
序列的
( A )
A.
1-2% B. 3-5% C. 5-10% D.10-20%
12
、在真核生物的一个基因内含子两端,即外显子
/
内含子拼接边界处,其符合
( B
)
规则。
A. Kozak B.
GT?AG C. SD D. Poly(A)
13
p>
、
PIR
是
( D
)
A.
分类数据库
B.
核酸数据库
C.
mRNA
数据库
D.
蛋白质数据库
14
、
alignment
的
含义是
( C )
A.
登录号
B.
算法
C.
比对
D.
分类
15
、隐马尔科夫模型的代号是
( A
)
A. HMM B. CDD C. HTGS D. GSS
16
、
DNA
中
Tm
值与
( B
)
含量成正比
A. G+A B.
G+C C. T+C D. A+T
17
、
OMIM
是
( A )
A.
在线人类孟德尔遗传数据库
B.
国家核酸数据库
C.
人类基因组计划
D.
水稻基因组计划
18
、被誉为
“
生物信息学之父
”
的科学家是
( D )
A.
Dulbecco B. Sanger C.
吴瑞
D.
林华安
19
、下列
Fasta
格式正确的是
( B
)
A. seq1: agcggatccagacgctgcgtttgctgg
ctttgatgaaaactctaactaaacactccctta
B.
>seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactcta
actaaacactccctta
C. seq1:agcggatccagac
gctgcgtttgctggctttgatgaaaactctaactaaacactccctta
D. >seq1agcggatccagacgctgcgtttgctggcttt
gatgaaaactctaactaaacactccctta
20
、国际三大核酸数据库每间隔多长时间就互相交换数据库里的数据
( A )
A.
每天
B.7
天
C.
10
天
D.
一个月
21
、
UTR
的含义是
( B )
A.
编码区
B.
非编码区
C.
低复杂度区域
D.
开放阅读框
22
、以下数据库不能用于检索核酸序列的是
( B )
A. GenBank B. PDB C. EMBL
23
、进行多序列比对常使用哪种软件
( C )
A. Dock B. Compute pI/MW C.
Clustal D. Rasmol
24
、对于远源蛋白
质序列,在进行多序列比对的时候应选用下面哪一种矩阵
( B )
A. BLOSUM62 B. BLOSUM30 100 D.
结合基序打分矩阵
25
、对于蛋白质同源结构模建,通常要求待模建序列与模板序列一致性超过
(
D )
A. 60% B. 50% C. 40% D.30%
26
、对于搜索不到同源模板的蛋白质,可尝试用以下哪种方法模建构
( A )
A. Threading
法
B. SWISS-
MODEL
网络服务器
C.
Homology
法
D.
没有办法模建
27
< br>、给定一段核酸序列,可通过什么方法查找上面蛋白质编码区
( A )
Finder B. CpGPlot C. SWISS-MODEL D.
Dock
28
、预测蛋白质上的跨膜区,可使用以下哪种软
件或方法
( D )
A. GeneSplicer B.
Chou-Fasman
算法
C. GOR
29
、
EMBL
的含义是
( B )
A.
美国国家生物信息中心
B.
欧洲分子生物学实验室
C.
日本
DNA
数据库
D.
瑞士国家基因组研究中心
30
、
NCBI
的含义是
< br>( A )
A.
美国国家生物信息中心
B.
欧洲分子生物学实验室
C.
日本
DNA
数据库
D
.
瑞士国家基因组研究中心
四、简答
1
、生物信息学的发展经历了哪几个阶段
?
答
:
p>
生物信息学的发展经历了
3
个阶段。
第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立
、生物数据库的建立
以及
DNA
和蛋白
质序列分析为主要工作
;
第二阶段是基因组时代。这一阶段
以各种基因组计划测序、网络数据库系统的建立和基因
寻找为主要工作。
第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋
白质组分析
以及其他各种基因组学研究。
2
、生物信息学的主要研究任务是什么
,
< br>目前生物信息学的主要研究内容是什么?
答:任务
p>
:
①收集和管理生物分子数据
;
②数据分析和挖掘
;
③开发分析工具和实用软件<
/p>
:
生物
分子序列比较工具、基因识别工具
、生物分子结构预测工具、基因表达数据分析工具。
内容
p>
:(1)
序列比对
;(2)
基因预测
;(3)
药物设计
;
(4)
蛋白质结构预测
;(5)
基因调
控网络的预测
;(6)
蛋白质相互作用预测
;(7)
分子进化分析
3
、人类基因组计划的主要内容和目的是什么?
答:人类基因组计划中,人们准备用
15
年时间,投入
30
亿美元,完成人类全部
24
条染色
体中
3×
109
p>
个碱基对
(bp
,
base
pair)
的序列测定,其主要任务包括作图
(
遗传图谱、物理图谱的
建立及转录图谱的绘
制
)
、测序和基因识别,还包括模式生物
(
如大肠杆菌、酵母、线虫、小鼠
等
)
基因组的作图和测序,以及信息系统的建立。
目的:是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体
之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科
学依据。
4
、什么是
一级数据库,哪些数据库属于一级数据库
,
它与二级数据库有什
么区别
?
答:一级数据库
:
数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整<
/p>
理和注释。国际上著名的一级核酸数据库有
Genbank
数据库、
EMBL
核酸库和
< br>DDBJ
库等
;
蛋
-
-
-
-
-
-
-
-
-
上一篇:心脏起搏常用参数名称及意义
下一篇:动力系统的概念