大学生活动心得-大学生活动心得
信息检索原理技术
1.1.1
信息
:信息是事物发出的信号所包含的内容。
一次文献信息
:作者以自己的研究成果为基础创作或撰写的、未经过加工的原始文 献。
(期
刊论文、研究报告、专利说明书、会议论文、学位论文)
二次文献信息
:对一次信息加工整理而成的文献。
< p>(目录、文摘、索引)
三
次文献信息
:对一二次信息综合、分析等深加工的产物。
(评论、进展报告、述评、百科
< br>全书、年鉴、指南、期刊书目)
知识:
人类的主 观世界对客观世界的概括和反映,
是大量有组织的信息,
是关于实施和思想
的有组织的陈述,提供某种思考的判断和某种实验的结果。
< br>文献:是记录有知识的一切载体,即知识信息必须通过文献载体进行存储和传递。
1.3.1
检索系统包括物理构成和逻辑构成。
从物理构成的角度来考察,检索系统一般包括硬件、软件和数据库。
< /p>
硬件:
计算机检索系统采用的各种硬件设备的总称。
包括具 有一定性能的主计算机或服务器、
检索系统的外围设备和在数据处理和传送中有关的其他
设备。
软件:包括与计算机检索相关的各种系统软件及相关应用软件。
数据库:
至少由一种文档组成,
并能满足某一特定目的或某一特 定数据处理系统需要的一种
数据集合。
;
逻辑构成:
文献与数据的选择与抽取子系统
(从外部信息源向系统输入 ,
输入时要按照系统
既定方针和用户需求进行选择)
、词 表子系统(分为完全的自然语言检索和后控自然语言检
索)
、标引子系统 (按照一定的词表,对文献赋予标引词)
、查寻子系统(把用户的需求,经
过概念分析,转换成系统语言的词汇,并指出其逻辑关系的过程)
、用户与系统交互子系统 p>
(检索系统向用户提供的实现其检索过程的手段)
、匹配子系统(文献的标引 记录和提问的
检索策略进行对比并决定取舍)
2.2
布尔检索模型的概念
:
采用布尔代数和集合论的方法,
用布尔表达式用户提问,
通过对文献
标识与提问式的逻辑运算来检索文献。逻辑运算符有三种:逻辑与、逻辑或、逻辑非。
优点:
逻辑运算符较少,
便于用户学习;
模式较易构造,
可以通过简单的关系来体现检索项
的联系;
布尔检索模型可以将复杂的检索过程以简单的检索式表达出来,
通过逻辑运算符将
概念间的逻辑关系体现出来,
变成计算机可执行的运算,
从而实现自动 匹配的过程;
检索提
问式较灵活,方便修改。
缺点:
布尔检索中关键词没有权重区别;
检索结果的输出没有重要 性排序;
查全率很难控制;
布尔检索要求用户具备诶很高的素质和语义提
取能力。
3.3
无论是人工索引还是自动索引都经历了采集信息、
建立数据库到标引信息、
形成索 引数据库
的过程。
信息采集
:
有关机构和个人,
根据一定目的,
将系统内外各种形态的信息采出 并汇集起来的
过程。
传统的文献信息采集:主
要通过人工采集如采购、索取、交换、检索、复制等手段来获得有
关文献信息。
信息标引:
通过 对文献或信息的分析,
选用确切检索标识,
如类号、
主题词、 p>
关键词、
人名、
地名等,用以反映该文献或信息资源内容的过
程。
建立索引
---
索引包括索引款目 、参照系统和索引款目导引标志。
索引款目由索引标目和索引地址构成。
索引标
目又可以分为主标题和副标题。
索引主标目揭示被索引概念的核心部分。
副标目作 用
是使所用标目含义更为具体、专指。
索引的
建立一般有以下的步骤:
1
、选题,建立主索引文件。
2
、对主索引关键词进行抽词倒
排,建立目标格式文件。
3
、排序与归并。
3.6
倒排文档:主要按照某一属性(字段)的字符顺序存入数据库的全部记录,又称主文档。< p>
顺排文档的检索,
只要将用户的检索表达式与顺排文档中的文献记 录依次比较,
就可以判断
是否又匹配的文献记录。
检索可以是顺序检索,也可以分块检索和折半检索。
< br>顺序检索:
从一个顺排文档的开头部分,
依次查找文档中的所有信息, p>
已找到文档中潜在的
某一特定信息。
分块查找要进行两次查找。
首先对按关键字的顺序将主文档分为若干大小适当的记录块,
标
记每个块的最后一个记录的关键字。查找时,将所要查找的记录在哪一块。<
/p>
折半检索法按照检索关键字值得大小将检索范围分成二分之一,
逐步缩小范围检索,
知道查
到所需要的信息。
首先 检查文档中间的记录,
把中间记录的关键之同用户查询中的关键值比
较,
如果相匹配,那么中间的记录就是需要查找的记录。
如果不匹配,
进一步确定所要 查找
的关键字值在中间的元素的前面或后面。
如果在前面,
则文档后面的一般就可以忽略,
再去
检查剩余部分的中间元素,直到找
到相关信息。
倒排文档:将主文档中的可检字段抽出,按某种顺序重新
排列起来所形成的一种索引文档。
倒排文档的建立:
(
1
)索引词选择。选择需要做索引的字段属性,抽出其 中内容,并在其后附上记录号。
(
2
) 对抽取的内容进行排序,便于归并相同内容。
(
3 p>
)对相同内容进行归并,把合并后内容放入倒排文档的主键字段,统计每一数据的频次
作为目长,把每一内容后的记录号顺序放于记录号集合字段。
倒排文档可以实现对文献的快速查找,
只需检索索引就可以确定是哪些文献是与查询请求相
关的。
6.1.3
一般系统的用户接口应满足以下用户需求:
1
、
帮助用户学习系统,使之了解系统内的资源情况、构成和使用方法。
2
、
为用户提供进行检索作业的通道
3
、
为用户提供描述检索问题的工具
4
、
保证在用户满意的时间内,以用户期望的方式,检索准确、完备的信息。
5
、
它应该尊重用户的思想方法和思维习惯。
6
、
能保证用户事先不需要经过过多的 培训,即使缺乏信息检索经验和知识,也能在系
统自身的帮助下完成检索。
7
、
能够帮助用户认清和确定自己的信息需求,并促使检索依据用户的实际需求进行。
信息检索系统的用户接口所具备的功能可分析和总结如下:
1
、
自动登录系统
2
、
访问多个数据库的功能
3
、
数据库选择功能
4
、
帮助功能
5
、
检索式构造功能
6
、
查询扩展
7
、
相关反馈功能
8
、
下载和上载功能
9
、
用户视图定义功能
10
、
后处理功能
用户接口的组成:
1
、
面向用户部分
2
、
面向系统部分
3
、
转换部分
用户接口的主要形式:
1
、
命令语言形式
2
、
菜单选择方式
3
、
表格填充方式
4
、
直接操作方式
5
、
自然语言的人机对话方式
第七章
信息检索系统的评价
7.2.1
系统角度的性能评价指标
1
、
从系统 角度来考察检索系统的评价通常是以相关行为标准的。
系统角度的相关性是
把信息检索定位于一种单方向的信息处理过程,系统根据用户的提问输出检索结果,用
户是信息的接受着。这种理解把相关性看作是系统方面的属性,用户提出的查询请求只
是
被拿来与已确定的文档相比较,二者之间匹配、比较的主要标准就是文档内容与提问
的“
主体性”
。系统相关性是对复杂的相关性概念采取的一种简化处理,只有做出这种
简化,信息检索及其评价才能在一种相对“客观”的相关性标准下顺序进行。相应地,
< br>评价指标也比较容易观察或测度。
2
、查全率和查准率的互逆关系
查全率和查准率之间具有密确的关系,
即互逆关系,
反映了某一检索结果集合的 不
同方面的特性。从查全率与查准率的定义上很难推出两者的变化关系,但从感性角度,
许多实例证明了两者的互逆关系。一般说来当选用比较准确和专指的词作为检索词时,<
/p>
所检出的数据信息往往比较符合检索要求,但数量有限,使检索者担心有许多数据被过
p>
滤掉。当扩大检索范围,选用广义的词作检索词时,准确率会大大降低,检索结果会很
庞大,使检索者不得不进行人工的再次筛选。
3
、影响查全率和查准率的因素
查全率与查准率的变化关系是一个相当复杂的课题,
不仅因为两者本身的关系
< br>
不确定,
而且研究中会发现许多影响 因素,
这些影响因素也存在诸多不确定性。
其
影响因素表
现在:
(
1
)相对值的影响
研究查全率与查准率的关系,
只是作为一种普遍意义上的规律来研究。
< p>要做大
量的统计,
经过整理分析,
得出统计的平均结 果作为建立数学模型的基本依据。
因
此这是相对值的研究,其本身就具有
一定的不确定性,其结论也不能是绝对的。
(
2
)检索方式的影响
检索方式有委托检索与非委托检索之分。
委托检索是指检索者向检索专业人员
提出提问,
有检索专业人员操作系统进行检索然后将检索结果传递给检索者;
非委
托检索是指由检索者亲自使用检索系统进行的检索活动。
两种方式各 有利弊,
用户
更清楚自己的检索主题和具有更多的专业知识,
作情况。采用的方式不同,其查全率和查准率受到
的影响因素也不同。
(
3
)时限的影响
研究
查全率与查准率的关系时还要考虑时限的限制,
要在时限相等的范围内取
样。
(
4
)检索过程中的影响因素
< br>数据库中数据信息的组织和标引的科学程度也会影响查全率和查准率。标引
得越深
,需要与之匹配的检索词越专指,这样查全率可能会升高,而标引词使用
得越多,入口就
越多,这样查全率可能会升高。同样,检索时检索策略的组织和
对被检主题的理解程度词
语转化能力都会造成不同的检索结果,成为我们定量研
究中的不确定因素。综上所述,在
对数据库中查全率与查准率的研究中存在许多
的前提,而这些前提包含着多种不确定。<
/p>
4
查准率与查全率的适用性
目前,
查准率与查全率已经广泛的应用与评价检索算法的性能。
然而,
随着研究的
深入,两种测度的一些问题也暴露出来
。第一,查询最大查全率的合理估计一般需要了
解集合中的所有文献,对于大型的文献集
来说,就无法对查全率进行准确的估计了。第
二,查全率与查准率是相互关系的测度,它
们评价检出文献的不同方面,很多情况下,
把查全率和查准率结合在一起形成单个的测度
可能更适合些。第三,查全率和查准率测
度的是批处理模式下查询集合的性能。但对于现
代信息检索系统来说,交互性是检索过
程的一个重要特征。因此,那些量化检索过程信息
性的指标可能会更适合。第四,当对
检索到的文献进行线性排序时,查全率和查准率的计
算会比较容易。可是对于那些并不
需要排序的系统来说,查全率和查准率可能就不能充分
满足要求。
7.2.2
用户角度的性能评价指标
在检索性 能评价过程中,脱离用户谈相关是不现实的。一篇文档是否具有相关性,
很大程度上取决
于用户的主观判断,
往往涉及用户的知识状态、
待处理
(解决)< /p>
的问题、
任务及所处的情境或者用户的目标、动机等众多因素。用户角度的
性能评价对检索结果
的评价非常关键而不可缺少。用户角度的性能评价指标主要有以下指
标:
(
1
) 涵盖率(
2
)新颖率(
3
)相对查全率(
4
)查全效果
7.2.3
搜索引擎的性能评价指标
1
、建立评价指标的原则
搜索引擎评价指标体系的建立应符合以下三个原则:
(
1
)科学
就是指新建立的搜索引擎评价指标体系能客观、
真实、
全面地反映 搜索引擎的主要
性能及其内在联系。
(
2
)合理
就是搜索引擎评价指标体系是对传统的信息检索评价指标体系的扬弃,
继承信息检
索传统评价指标体系中有用的部分,
摒弃信息检索传统评价指标体系中存 在的严重缺陷
的部分,增加新的适合互联网上信息检索评价需求的内容。是搜索引擎评价
指标体系既
继承传统评价指标体系,又符合当代科学技术发展的客观要求。
(
3
)有效
有效是指搜索引擎评价指标体系既能比较准确的区分各种搜索引擎的 主要性能,
又
能简单易用、方便操作。
2
、评价指标设计的方面
(1)
数据规模与内容
<
/p>
具体的考察因素(或指标)包括收录范围、数据库内容、更新频率、重复率、死链
< br>接率等。
(
2
)索引方法
主要考察的内容包括索引方式(自动还是人工)
、引索 范围和深度等
(
3
)检索功能
主要包括两大方面:基本检索功能(包括布尔检索、截词检索、位置
/
短语检索 、
限制检索等)
和高级
(或辅助)
检索功 能
(包括概念检索、
相思检索、
多语种检索等)
。
(
4
)检索结果处理
主要考察指标包括排序方式、显示内容
/
格式、后处理功能(如摘要、聚类、翻译
等)
。 p>
(
5
)分类功能
主要涉及内容包括分类类目体系的深度、数量、合理性等。
(
6
)用户界面
主要考虑因素包括界面布局、联机帮助、界面制定、界面广告量等。
(
7
)汉字处理
主要考虑的具体方面包括词语切分、多内码处理
/
转换、中英文混合检等。 p>
(
8
)其他
如响应时间、系统稳定性等。
3
、目前评价活动面临的问题
(
1
)搜索引擎提供(或公开)的信息有限
(
2
)某些指标客观存在
(
3
)各个搜索引擎之间差异较大,测试结果数据的可比性较低。 p>
(
4
)有些评价指标涉及评价者的主观因素 较多,或完全取决于评价者的主观判定
第八章
一
>DIALOG
的优势
(
1
)信息量大。
DIALOG
系统数 据库总数达
900
多个,涉及
40
多个文中,相当 于
internet
中可检索内容的
50
倍,这个数量远远多于其它国际联机系统。
(
2
)数据库的质量比较高。
DIALOG
系统的数据库都是从世界上著名的 数据库生厂商那里
租借或购买,因而质量有保障。
(
3
)检索迅速方便。
DIALOG
系统检索 功能强大,为各种信息需求提供了高效精确且一步
到位的一次性解决方案。
(
4
)具有较强的回溯检索功能。
D IALOG
系统自
20
世纪
70
年 代投入服务来,经历了
30
年的资料积累,能够体现信息的积累性,系统
性,和完整性
二
>DIALOG
检索技术
< p>
(
1
)专用搜索命令(
2
)逻辑组配
(
3
)截词技术
(
4
)限定技术
三
>DIALOG
系统数据库
(
1
)主题范围。目前
DIALOG
系统的主题范围有
商业与财政,能源与环境,食品与农业,
人文学科等。
(
2
)数据库内型
1
)书目数据库。主要存放原始文献书目信息。
2
)指南数据库。主要存放一些介绍公司,团体,或名人的数据库,或者如化学 物质名称,
结构,俗名之类的指南性信息
3
)数字数据库。存放调查数据或者统计数据等
4
)全文数据库。存放
法律,法规,期刊,报纸,专著以及其它文献的实际全文
(
3
)数据库结构
数据库可以理解为通过计算机存取的机读信息的集合。
DIALOG
数据库的 基本结构如下:
字段—
>
由字段构成数据记录—
>
由数据记录构成数据库
(
4
)索引文件
数据库是由成千上万条记录组成,
每条记录以自然次序存放在数据库中,
数据库 中很多字段
有检索意义能够提供检索入口,为加速检索过程需要建立索引文件。
DIALOG
数据库中的
所有具有检索意义的字段被标引为两种索
引:
基本索引和附加索引,
基本索引包含与主题相
关的字
段,如题名,文摘,和正文字段,附加索引则包含其它的可检字段
(
5
)联机培训和练习数据库
DIALOG
数据库提供了近
40
个联机培训和练 习数据库,这些数据库提供免费使用
(
6
)联机帮助文档
< br>为了帮助检索者选择合适的文档,构造和合理的检索策略,
DIALOG
系 统提供了一些联机
帮助功能。
四
>
联机信息检索系统新发展
随着科技发展,
人们对联机检索的研究更加深入。
未来的计算机系 统应该向网络化,
多媒体
化,智能化方向发展。未来的信息检索系统应具
有以下特征:第一,系统模式客服机
/
服务
器化。
这一结构是基于网络的一种计算模式,
一起开放的平台概念,
较高的运行 效率以及灵
活的扩展性能,
成为当今信息系统结构设计的主流,第二,完 善的网络平台。
这要求通讯网
络应全球性,全国性,或地域性覆盖,宽带
传输,传输速度快等。第三,智能化人机接口。
采用人工智能,专家系统,超文本等,让
用户方便的访问各种信息资源。第四,具有多媒体
采集,存贮加工,检索,传递能力。第
五
,
具有较强的网络互联能力。通过网关,智能开关
大学英语小论文范文-大学英语小论文范文
南昌航空大学空乘系-南昌航空大学空乘系
同济大学经济学院-同济大学经济学院
江南大学英语专业考研-江南大学英语专业考研
21世纪大学英语3课后答案-21世纪大学英语3课后答案
西安西北大学地址-西安西北大学地址
东北财经大学面积-东北财经大学面积
大学生人生格言-大学生人生格言
-
上一篇:2015年华中师范大学金融专业参考教材
下一篇:武汉的独立院校