关键词不能为空

当前您在: 主页 > 英语 >

生物信息学题库 -精校+整理

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2021-02-27 22:05
tags:

-

2021年2月27日发(作者:galen)


生物信息学题库



一、名词解释



1


生物信息学


:


生物分子信息的获 取、存贮、分析和利用


;


以数学为基础,应用计算机技术,


研究生物学数据的科学。



2

< p>


相似性


(similarity)


:


相似性是指序列比对过程中用来描述检测序列和目标序列之间相同


DNA


碱基或氨基酸残基顺序所占比例的高低。



3



同源性


(


homolo


gy)


:


生物进化过程中源于同一祖先的分支之间的关系。



4



BLAST(Basic Local Alignment Search Tool)


:


基本局部比对搜索工具,用于相似性搜索的工


具,对需要进行检索的序列与数据库中的 每个序列做相似性比较。



5



HMM


隐马尔可夫模型


:

< br>是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,


插入和缺失状 态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。


< p>
6



一级数据库


:


一级数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理

< br>和注释


(


投稿文章首先要将核苷酸序列或蛋白质序列提交 到相应的数据库中


)


7



二级数据库


:


对原始生物分子数据进行整理、分 类的结果,是在一级数据库、实验数据和理


论分析的基础上针对特定的应用目标而建立的 。



8



G enBank:



是具有目录和生物学注释的核酸序列综合公共 数据库,由


NCBI


构建和维护。


< /p>


9



EMBL:EMBL


实验室:欧洲分子生物学实验室。


EMBL


数据库:是非盈利性学术组织



EMBL



建立的综合性数据库,


EMBL


核酸 数据库是欧洲最重要的核酸序列数据库,它定期地


与美国的



GenBank


、日本的



DDBJ



数据库中的数



据进行交换,并同步更新。



10< /p>



DDBJ:



日本核酸序列数据库,是亚洲唯一的核酸序列数据库。



11



Entrez


:


是由



NCBI



主持的一个数据库检索系统,它包括核酸,蛋白以及



Medline



文摘数


据库,在这三个数据库中建立了非常完善的联系。



12



SRS(sequence


retrieval


system)


:


序列查询系统,是



EBI



提供的多数据库查询工具之一。


有与


Entrez



类似的功能,还提供一系列的序列分析工具,可 以直接进行在线序列分析处理。



13



EST


:


收集大量


cDAN



EST


序列以及其 他相关信息,目前最大的公共表达序列数据库。



14



GSS


:GeneBank


数据库的一部分,收集基因组


DNA


克隆的测序序列。



15



G EO


:


基因表达精选集是一个储存高通量功能基因组学数据的数 据库。



16


SCOP


数据库


:


提供关于已知结 构的蛋白质之间结构和进化关系的详细描述,包括蛋白质


结构数据库

PDB


中的所有条目。



17



PROSITE


:


是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助 识


别蛋白质家族的统计特征。



18



RefSeq:


是一个收录注释过的非冗余转录本、蛋白质和基因组序列的数据库。



19



结构域


Str ucture


domain:


结构域,是在蛋白质三级结构中 介于二级和三级结构之间的可


以明显区分但又相对独立的折叠单元。


20



开放阅读框


ORF:


开放阅读框,位于


DNA

< br>或


RNA


上起始密码子与终止密码子之间的序列。



21



启动子


Promoter:


启动子是基因的一个组成部分,是位于结构基因


5?


端上游区的


DNA



列,控制基因表达


(


转录< /p>


)


的起始时间和表达的程度。



22



3’UTR:


3 ?


非翻译区的缩写,真核生物的转录终止信号是在



3?


非翻译区的


: polyA




23



CpG island:


是在哺乳动物基因组中的一个


500bp


到< /p>


300bp


的区域,富含


GC

< p>



24



模体


Motif:


又称模体,蛋白质序列中短的保守 区域,它们是结构域中保守性很高的部分。



25



PDB(Protein Data Bank):


蛋白质结构数据库,是国际上著名的生物大分子结构数据库,由


美国


Brookhaven


国家实验室 建立。



26



打分矩阵


(scoring


matrix):


在相似性检索中对序列两两比对的质量评估方法。包括基于理



(


如考虑核酸和氨基酸之间的类似性


)


和实际进化距离


(



PAM )


两类方法。



27

< br>、


遗传连锁图


:


又叫遗传图谱< /p>


(genetic


map)


是以具有遗 传多态性的遗传标记为



路标



,以遗传


学距离为图距的基因组图。



28



蛋白质组


(p roteom)


:


是指一个基因组、一种生物或一个细胞


/


组织的基因组所表达的全套蛋


白质。



29



基因组学< /p>


:


研究生物基因组和如何利用基因的一门学问。

< br>


30



比较基因组学


:


是在基因组图谱和测序的基础上,利用某个基因组研究获得的信息推测 其


他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。



31



FA STA


序列格式


:


是将


DNA


或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基


酸字符串,大于号


(>)


表示一个新文件的开始,其 他无特殊要求。



32



genbank


序列格式


:



GenBank


数据库的基本信息单位,是最为广泛的生物 信息学序列格


式之一。该文件格式按域划分为


4


个部分


:


第一部分包含整个记录的信息


(


描述符


);


第二部分包


含注释


;


第三部分是引文区,提供了这个记 录的科学依据


;


第四部分是核苷酸序列本身,以


“//”



尾。


< p>
33



查询序列


(que ry


sequence):


也称被检索序列,用来在数据库中 检索并进行相似性比较的序


列。



34



空位


(gap)

:


在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对


结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。


P29


35



空位罚分


:


空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空位的 引入不


代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果 。


P37


36


< br>E



:


衡量序列之间相似性是否 显著的期望值。


E


值大小说明了可以找到与查询序列

< p>
(query)


相匹配的随机或无关序列的概率,


E


值越接近零,越不可能找到其他匹配序列,


E


值越小意味


着序列的相似性偶然发生的机会越小,也即相似性越能反映真实的生 物学意义。


P95


37



低复杂度区域


:


BLAST

搜索的过滤选项。指序列中包含的重复度高的区域,如


poly(A)




38



点矩阵


(dot


matrix):

< br>构建一个二维矩阵,其


X


轴是一条序列,


Y


轴是另一个序列,然后在


2


个序列相同碱基的对应位置


(x



y)


加点,如果两条序列完全相同则会形成一条主对角线,如


果两条 序列相似则会出现一条或者几条直线


;


如果完全没有相似性则不 能连成直线。



39



多序列比对


:


通过序列的相似性检索得到许多相似性序 列,将这些序列做一个总体的比对,


以观察它们在结构上的异同,来回答大量的生物学问 题。



40



分子钟


:


认为分子进化速率是恒定的或者几乎恒定的假说,从而 可以通过分子进化推断出


物种起源的时间。


< br>41



系统发育分析


:


通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推断


不同物种或基因之间的进化关系。



42



进化树的二歧分叉结构


:


指在进化 树上任何一个分支节点,一个父分支都只能被分成两个


子分支。



43



系统发育图

:


用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。


44



直系同源


:< /p>


指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似或


不同的功能。


(



:


在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。

)


45



旁系


(


并系


)


同源


:


指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这些基因


在功能上可能发生了改变。


(


< p>
:


由于基因重复事件产生的相似序列。


)


46



外类群


:< /p>


是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。



47



除权配对算法


(UPGMA):


最初,每个序列归为一类,然后找到距离最近的两类将其归 为一


类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。



48



邻接法< /p>


(neighbor-joining


method):


是一种不仅仅计算两两比对距离,还对整个树的长度进


行最小化,从而 对树的拓扑结构进行限制,能够克服


UPGMA


算法要求进化速 率保持恒定的缺


陷。



49

< p>


最大简约法


(MP):


在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替


换的进化树。



50



最大似然 法


(ML):


它对每个可能的进化位点分配一个概率,然后综合 所有位点,找到概率


最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析 评估,并在此基础上构建


系统发育树。



51



自举法检验


(Bootstr ap):


放回式抽样统计法。通过对数据集多次重复取样,构建多个进化


树,用来检查给定树的分枝可信度。



52

< p>


密码子偏好性


(codon

< br>bias):


氨基酸的同义密码子的使用频率与相应的同功


tRNA


的水平相


一致,大多数高效表达的基因仅使用那些含 量高的同功


tRNA


所对应的密码子,这种效应称为

< p>
密码子偏好性。



53



基因预测的从头分析


:


依据综合利用基 因的特征,如剪接位点,内含子与外显子边界,调


控区,预测基因组序列中包含的基因。



54



超家 族


:


进化上相关,功能可能不同的一类蛋白质。



55



序列表谱

< p>
(profile):


是一种特殊位点或模体序列,在多序列比较的基础上 ,氨基酸的权值和


空位罚分的表格。



56



PAM


矩阵

:


PAM


指可接受突变百分率。一个氨基酸在进化中变成另 一种氨基酸的可能性,


通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间 的比对。一个


PAM


单位是


蛋白质序列 平均发生


1%


的替代量需要的进化时间。



57



BLOSUM


矩阵


:


模块替代矩阵。矩阵中的每个位点的分值来自 蛋白比对的局部块中的替代


频率的观察。每个矩阵适合特定的进化距离。例如,在


BLOSUM62


矩阵中,比对的分值来自


不 超过


62%


一致率的一组序列。



58



PSI-BLAST:


位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵


( scoring matrix)


探测远缘相关的蛋白。



59



RefSeq:

给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的


Genban k


序列。



60



有根树


:


单一的节点能指派为共同 的祖先,从祖先节点只有唯一的路径历经进化到达其他


任何节点。



61



无根树

:


只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,< /p>


可以在无根树中指派根节点。



62



一致树


(consensus


tree):


在同一算法中产生多个最优树,合并这些最优树得到的树即 一致


树。



63



分子进化树


(molecular


evolutionary


tree)



在研究生物进化和系统分类中,常用一种类似


树状分支的图 形来概括各种


(



)

< br>生物之间的亲缘关系,这种树状分支的图形成为系统发育树


(phylogene tic tree)




二、填空



1



1970



Needleman< /p>



Wunsch


提出了著名的序列比对算 法,是生物信息学发展中最重要的


贡献



2



20


世纪


90


年代后,


HGP


促进生物信息学的迅速发展



3



HGP


选择作为研究人类的四大



模式生物



有酵 母、线虫、果蝇、小鼠



4


、在人的遗 传连锁图谱上,


1cM


的物理距离大约为


1000000


核苷酸



5


、基因组测序的基本策略有逐个克隆法和全基因组鸟枪法


< p>
6


、国际上三大生物信息学中心有


:NCBI



EBI



CIB


7

、国际上最重要的核酸初级序列数据库有


: GeneBank



EMBL



DDBJ


8

、国际上最重要的蛋白质序列数据库


:SWISS- PROT



PIR


9


、常用的序列搜索方法


:FASTA



BLAST


10


、目前由


N CBI


维护的大型文献资源是


PubMed


11


、数据库常用的数据检索工具


:Entrez



SRS


12


、多序列联配的常用软件


:Clustal


13

< p>
、在生物学中常用的两种动态规划算法分别有


:Needleman- Wunsch



Smith-Waterman


14


、在用


BLAST


进行 核酸序列查询时,查询序列和数据库中被比对上序列之间是否显著性相


似可用

< p>
E


值来度量,


E


值越大, 相似性越小,


E


值越小,相似性越大。生物学意义上相似的两< /p>


条序列,其


E


值远小于

< br>1.0


15


、写出以下标注的含义

:LOCUS


是基因座位,


DEFINITION


是基因定义,



ACCESSION

< p>
是登


录号,


VERSION


是版本号,


SOURCE


是来源物种



16


、检测原核生物


ORF

< p>
的程序


:NCBI-ORF finder


17


、二级结构的状态有


:


α


螺旋,


β


折叠,


β


转角,无规则卷曲


18


、对于任一


DNA


序列


(



cDNA


序列< /p>


)


,可能存在


6


种不同的阅读框,其中


3


个为正向的,


3


个为反向的



19

、原核生物启动子有两段保守序列,即


-10


区左右的< /p>


TATAAT


,以及


-35

< p>
区左右的


TTGACA



它们为


RNA


聚合酶结合位点和识别位点



2 0


、蛋白质同源结构建模可以使用在线的免费预测工具


swis s-model


21.


系统发育树主要的三种构建方法


:


距离矩阵法、最大简约法、最大似然法。


22


、可使用


Oligo6


软件进 行引物设计。



23.


写出以下


pubmed


检索时常用的限制字段的含义


:[au]


作者、


[ti]


标题、< /p>



[dp]


发表日期、


[affiliation]


地址



三、选择



1



( C )


是现在国际上最主要的核酸序列数据库



A. EBIB. PDB C. GenBank D. NCBI


2


、基本局部比对搜素工具是


( C )


A. Mega B. ClustalW C. BLAST D. GCG


3


、单核苷酸的标记是


( B )


A. RFLP B. SNP C. SSR D. RAPD

< br>4


、提交序列到


GenBank


中,使用的程序可以是


( D )


A. Entrez B. SRS C. Medline D. BankIt


5

、人类基因组计划没有计划完成的几张图谱分别是


( D )


A.


物理图谱


B.


遗传图谱


C.


序列图谱


D.


生物图谱



6


、最常用的序列相似性查询工具是


( B )


A. PIR -PROT


7


、下列哪些分子类型不属于非蛋白质编码区


( C )

< br>A.


内含子


B.


卫星

< p>
DNA C.


外显子


D.


启动子



8


、卫星

DNA


的多态性是由


( B )


所决定的。



A. DNA


点突变个数


B.


限制性内切酶识别序列个数不同



C. DNA


的二级结构不同


D.


重复单位不同



9


、真核基因组特点不包括


( B )


A.


基因组大,巨大的非编码序列,重复序列占了绝大部分



B.


基因结构复杂,有显著长度的开放阅读框



C.


存在可变剪接



D. CpG



< br>10



PDB


是蛋白质的


( B )


A.


分类数据库


B.


结构数据库


C.


核酸数据库


D.


模体数据库



1 1


、根据研究发现,人类基因组中真正编码蛋白质的区域仅占


D NA


序列的


( A )


A. 1-2% B. 3-5% C. 5-10% D.10-20%


12

< p>
、在真核生物的一个基因内含子两端,即外显子


/


内含子拼接边界处,其符合


( B )


规则。



A. Kozak B. GT?AG C. SD D. Poly(A)



13



PIR



( D )


A.


分类数据库


B.


核酸数据库


C. mRNA


数据库


D.


蛋白质数据库




14



alignment


的 含义是


( C )


A.


登录号


B.


算法


C.


比对


D.


分类



15


、隐马尔科夫模型的代号是


( A )


A. HMM B. CDD C. HTGS D. GSS


16



DNA


< p>
Tm


值与


( B )


含量成正比



A. G+A B. G+C C. T+C D. A+T


17



OMIM



( A )


A.


在线人类孟德尔遗传数据库


B.


国家核酸数据库


C.


人类基因组计划


D.


水稻基因组计划



18


、被誉为



生物信息学之父



的科学家是


( D )


A. Dulbecco B. Sanger C.


吴瑞


D.


林华安



19


、下列


Fasta


格式正确的是


( B )


A. seq1: agcggatccagacgctgcgtttgctgg ctttgatgaaaactctaactaaacactccctta


B. >seq1 agcggatccagacgctgcgtttgctggctttgatgaaaactcta actaaacactccctta


C. seq1:agcggatccagac gctgcgtttgctggctttgatgaaaactctaactaaacactccctta


D. >seq1agcggatccagacgctgcgtttgctggcttt gatgaaaactctaactaaacactccctta


20


、国际三大核酸数据库每间隔多长时间就互相交换数据库里的数据


( A )


A.


每天


B.7



C. 10



D.


一个月



21



UTR


的含义是


( B )


A.


编码区


B.


非编码区


C.


低复杂度区域


D.


开放阅读框



22

、以下数据库不能用于检索核酸序列的是


( B )


A. GenBank B. PDB C. EMBL


23


、进行多序列比对常使用哪种软件


( C )


A. Dock B. Compute pI/MW C. Clustal D. Rasmol


24


、对于远源蛋白 质序列,在进行多序列比对的时候应选用下面哪一种矩阵


( B )


A. BLOSUM62 B. BLOSUM30 100 D.


结合基序打分矩阵



25


、对于蛋白质同源结构模建,通常要求待模建序列与模板序列一致性超过


( D )


A. 60% B. 50% C. 40% D.30%


26


、对于搜索不到同源模板的蛋白质,可尝试用以下哪种方法模建构


( A )


A. Threading



B. SWISS- MODEL


网络服务器


C. Homology



D.


没有办法模建



27

< br>、给定一段核酸序列,可通过什么方法查找上面蛋白质编码区


( A )


Finder B. CpGPlot C. SWISS-MODEL D. Dock


28


、预测蛋白质上的跨膜区,可使用以下哪种软 件或方法


( D )


A. GeneSplicer B. Chou-Fasman


算法


C. GOR

< p>
29



EMBL


的含义是


( B )


A.


美国国家生物信息中心


B.


欧洲分子生物学实验室



C.


日本


DNA


数据库


D.


瑞士国家基因组研究中心



30



NCBI


的含义是

< br>( A )


A.


美国国家生物信息中心


B.


欧洲分子生物学实验室



C.


日本


DNA


数据库


D .


瑞士国家基因组研究中心



四、简答



1


、生物信息学的发展经历了哪几个阶段






:


生物信息学的发展经历了


3


个阶段。



第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立 、生物数据库的建立


以及


DNA


和蛋白 质序列分析为主要工作


;


第二阶段是基因组时代。这一阶段 以各种基因组计划测序、网络数据库系统的建立和基因


寻找为主要工作。



第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋 白质组分析


以及其他各种基因组学研究。


2


、生物信息学的主要研究任务是什么


,

< br>目前生物信息学的主要研究内容是什么?



答:任务


:


①收集和管理生物分子数据


;

< p>
②数据分析和挖掘


;


③开发分析工具和实用软件< /p>


:


生物


分子序列比较工具、基因识别工具 、生物分子结构预测工具、基因表达数据分析工具。



内容


:(1)


序列比对


;(2)


基因预测


;(3)


药物设计


; (4)


蛋白质结构预测


;(5)


基因调 控网络的预测


;(6)


蛋白质相互作用预测

;(7)


分子进化分析



3


、人类基因组计划的主要内容和目的是什么?



答:人类基因组计划中,人们准备用


15


年时间,投入


30


亿美元,完成人类全部


24


条染色


体中



109


个碱基对


(bp



base


pair)


的序列测定,其主要任务包括作图


(


遗传图谱、物理图谱的


建立及转录图谱的绘 制


)


、测序和基因识别,还包括模式生物


(


如大肠杆菌、酵母、线虫、小鼠



)


基因组的作图和测序,以及信息系统的建立。



目的:是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体


之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科


学依据。



4


、什么是 一级数据库,哪些数据库属于一级数据库


,


它与二级数据库有什 么区别




答:一级数据库

< p>
:


数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整< /p>


理和注释。国际上著名的一级核酸数据库有


Genbank


数据库、


EMBL


核酸库和

< br>DDBJ


库等


;


-


-


-


-


-


-


-


-



本文更新与2021-02-27 22:05,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/676396.html

生物信息学题库 -精校+整理的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文