关键词不能为空

当前您在: 主页 > 高中公式大全 >

c阶乘公式自动文摘中的冗余句消除方法

作者:高考题库网
来源:https://www.bjmy2z.cn/gaokao
2020-09-30 19:33
tags:去除公式

学会计证要多长时间-许多孩子

2020年9月30日发(作者:孟启予)
自动文摘中的冗余句消除方法

摘 要:针对自动文摘的信息冗余问题,提 出了一种冗
余语句消除的方法。利用《同义词词林》来定义词语语义距
离计算公式,根据词语的 相似度,建立主题词和主题句之间
的一一对应关系,借用编码理论中海明距离的理论,得到了
文 摘中主题句的相似度,设置阈值过滤掉相似度较高的主题
句,从而实现了主题句的约简。实验结果证明, 该方法提高
了文摘的精度。

?ス丶?词:自动文摘;信息冗余;语义距离;海明距离

?ブ型挤掷嗪?:TP391.1 文献标志码:A

Abstract: To solve the problem of information redundancy
in automatic abstraction, this paper proposed a method for
eliminating redundant sentences in automatic abstraction.
Firstly, similarity of words was defined based on ??TongYiCi
CiLin.?? And then, correspondence between topic words and
subject sentence was established based on the similarity of
words, the similarity of subject sentence was got based on the
theory of Hamming distance in encoding theory, and high
similarity sentences were reduced by threshold. The
experimental results show that the method greatly improves
the accuracy of abstraction.
Key words: automatic abstraction; information redundancy;
semantic distance; Hamming distance
??
0 引言??
自动文摘应该以尽可能少的文字,最大限度地体现原文
所表 达的意思。通过自动文摘系统生成的主题句,并不能完
全作为文摘提交给用户。因为经过系统初步筛选出 的主题句,
往往具有较多的冗余信息。??
目前,对自动文摘中信息冗余的研究,主要 集中在基于
词语共现的信息冗余????[1-3]??,有些文献虽然提到了语
义信息冗余? ???[4]??,但并没有给出具体的解决方案。本
文针对自动文摘中主题句的冗余现象,比较详尽地 描述了自
动文摘中消除语义冗余的方法。??
1 基于《同义词词林》的词语相似度计算??
主题句的相似度主要取决于句中词语语义的相似度。 目
前基于词语语义相似度的计算,主要采用的是刘群等
人????[5]??提到的方法,该文 中词语语义相似性计算公式是
基于《知网》????[6]??的,并将实体概念语义分为4个部
分,分别计算4个部分的相似度,实体的整体概念相似度计
算公式为:??
??Si m(S??1,S??2)=∑4i=1β??i∏ij=1Sim??j(S??1,S??2)?
オ ?
可以看出在该公式中,有4个参数需要设置,人为因素
较多,稳定性较差,而且计算 量偏大。考虑到稳定性和计算
量的问题,本文采用了《同义词词林》来计算词语的相似度,
排除 了人为选择参数,而且计算量偏小。《同义词词林》是
梅家驹等人于1983年编纂而成,不仅包括了一 个词语的同
义词,也包含了一定数量的同类词,即广义的相关词????
[7]??。从《同义 词词林》的构造结构来看,很容易想到用
树结构来表示,如图1示。??

第一层是虚拟的根节点,第二层有12个节点,表示的
是大类别,分别有“人”、“物”、“时间与空间 ”、“抽象事物”、
“特征”、“动作”、“心理活动”、“活动”、“现象与状态”、“关
联 ”、“助语”、“敬语”12个类别,第三层表示每一大类下面
的中类别,共有94个中类。第四层节点 表示的是中类别下
的小类别,共有1?B428个小类别。第五层共有3?B925个节
点表示 小类别下的词群。叶子节点表示的是标题词。为了便
于后文的讨论,依据语义树形图给出如下几个定义: ??
定义1 ?Ь?对高度(Height(P??i)),?е傅氖墙诘愕礁?节点
的路径长度。比如:??Height(“动物”)=3。?オ?
定义2 ??密度(Dens ity(P??i)),?е傅氖墙诘愕男值芙诘闶?
与同一层中所有节点数的比值,??文中用Den sity(P??i)表示,
计算公式如下:?オ?
??Density(P??i)=sum(brother??i)sum(layer??i)?? ??
定义3 重合度。两个节点第一次到达同一个父节点所经
过的最长路径长度,文中用??L ength(P??i,P??j)?П硎尽1热纾
邯?Length??(“柳树”,“猴子”)=4 。??
从图1的语义树形图中,可以得出如下结论:??
1)对于重合度相同 的节点对,处于语义树较高层的,其
语义距离较大。比如说:“动物”和“植物”、“柳树”和“银杏”,这两对词语间的重合长度都是1,但前一对词(“动物”、
“植物”)绝对高度为2,后一对 词(“柳树”,“银杏”)绝对
高度为5。??
2)对于绝对高度相同的节点对,如果 位于语义树中高密
度区域,其语义距离应大于低密度区域。这是因为《同义词
词林》在分类上粗 疏不均所致,有些类别分得比较细,有些
类别相对于分得较粗。??
Lin等人??? ?[8]??认为任何两个事物的相似度取决于它
们的共性(commonality)和个性(dif ference),并从信息理论的
角度给出任意两个事物相似度的通用公式:??
??Sim(x,y)=p(common(x,y))p(description(x,y))?И?
??其中:common(x,y)描述x,y共性所需要的信息量的大
小,descri ption(x,y)描述出x,y所需信息量大小。?オ?
在语义树形图中,节点共性主要体 现在两个节点的父节
点的高度,个性主要体现在同一层次节点所在分支的密度和
节点之间重合度 。综合考虑节点的共性信息和个性信息,本
文给出如下的词语语义距离计算公式:??
??Dist(W??i,W??j)=??

Length(W??i,W??j) +Density(W??i)+Density(W??j)Length(W??i,
W??j)+ Height(pnode)?И?
其中??Height(pnode)?П硎惊?W??i,W??j?Ч餐?父节点的
绝对高度。??

2 主题句消冗的关键技术??
为了消除掉自动文摘中的冗余的 主题句,需要计算所有
主题句之间的相似度,并对相似度过大的主题句进行删减。
其中需要涉及 到的关键技术包含词语相似度的计算、语义距
离表的构建、主题句相似度计算等几个方面,下面一一进行
介绍。??
2.1 语义距离表的构建??
依据词语之间的语义相似度,本文构造了一个词义距离
表,结构如表1所示。??
??
表1由词??W??1,W??2,…,W??i,…,W??n?Ч钩杀淼亩?
维的坐标 元素。??W??i?П硎疚牡稻?过分词后所得到的所有
词条,其中不包括停止词。?П淼牡?i行j 列元素Dist(w??i,w??j)
表示w??i与w??j的词义距离。0≤Dist(w??i ,w??j)≤1。如果
Dist(w??i,w??j)=1,说明这两个词语意完全相反;如果Dist(w??i,w??j)=0,??说明这两个词语意完全一致,词语和其
本身的语义距离 也为0。??
文档中经过分词后,往往形成成千上万个词语。如
果直接进行字符 串的匹配非常耗时间。为了方便、快捷地在
语义词典查找两个词的语义距离,二维数组的下标可以通过< br>词语首字的Hash码来计算:??
??i=(c??1-176)×94+(c??2-161)??
其中c??1和c??2是词首字的区码和位码,对于首字相
同的词语,则按顺序存放。?オ?
2.2 句子相似度的计算??
海明距离是信息论中一个基本概念,能够反映两码 字之
间的差异,进而提供码字之间的相似程度的客观依据????
[9]??。海明码距离计算 公式如下。??
令??x=x??1,x??2,…,x??i,…,x??n;y=y??1 ,y??2,…,
y??i,…,y??n,x??i∈[0,1],y??i∈[0,1],它们之间 的海明距
离(即相异度)可以表示为:?オ?
??Dist(x,y)=??(??∑ni=1x??i?y??i??)??n?И?
??其中?表示异或加运算。?オ?
?Ъ偕栌幸欢远月胱?X={0010 1001},Y={1001 0011},它们
的距离计算过程如下:??
X异或Y ={1011 1010}??
X?Y=5??
Dist(x????1??,y????1??)=0.625?オ?

对于 文摘中的主题句,可以将原始文档中的主题词作为
码字,然后由上述的方法获得主题词与主题句中,每个 词的
语义距离。??
??设文档主题词系列{TS??1,TS??2,TS??3, …,TS??i…,
TS??n},文摘中待比较的句子A,经过分词并去掉停止词后
词序列为 {A??1,A??2,A??3,…,A??i,…,A??m},文摘中待比
较的句子B,经过分词 并去掉停止词后词序列为
{B??1,B??2,B??3,…,B??i,…,B??k}。由于海明 码的取值只
能是1或者0,这里设置一个阈值β(β≥0)。如
果??min??(Dist( TS??i,A??j))≤β,那么句子A第i个码值为1;
反之第i个码值取为0。?オ?
下面以一个具体例子,来做进一步的说明。??
??设文档中的主题词为TS:??
TS={水果,维生素,丰富,营养,健康,抵抗力}??
待比较的句子:??
S??1=“苹果富含大量有益健康的维他命”??
S??2=“梨子含有很多提高抵抗力的维生素”??
S??3=“动物的脂肪里包含有大量的脂肪酸”??
经过分词,并去掉无意义的停止词后:??
W????S????1????={苹果,富有,大量,有益健康,维他
命}:??
W????S??2??={梨子,含有,提高,抵抗力,维生素}??
W????S??3??={动物,脂肪,包含,大量,脂肪酸}??
主题词与S??1、S??2中各词语语义距离分别如表2~4所
示。?オ?

?в捎诤C骶嗬氲募扑悖?要求码字的各位取值要么为0,
要么为1。所以,这里设置阈值 β=0.1,语义距离大于0.1的
码值取为0;反之取为1。因此S??1、S??2、S??3的码 值分
别为:??
S??1={111010}??
S??2={111001}??
S??3={010000}??
它们之间的语义距离经过计算分别为:??
Dist(S??1,S??2)= S??1?S??2=0.33??
Dist(S??1,S??3)= S??1?S??3=0.5??
Dist(S??2,S??3)= S??2?S??3=0.5??
经过计算发现发现S??1和S??2语义距离要小于S?? 1和
S??3,计算结果比较符合直观语义。?オ?

2.3 消除冗余主题句的过程描述??
在上文论述的基础上,文摘中主题句冗余信息的消除步
骤如下:??
1)把文中的所有主题词作为码字。??
2)对文摘中所有的主题句进行分词,并过滤掉停止词。??
3)依据词义距离表,得到主题句 中每个词条与码字的语
意距离值,形成主题句的码字系列。??w=x??1,x??2,…,
x??i,…,x??n。?オ?
4)根据所设置的阈值,来决定码值取1还是取0。??
5)根据公式计算相似度,得到主题句之间的相语义距
离??Dist(S??i,S?? j),计算公式为?オ?
??Dist(x,y)=∑ni=1x??i?y??i?オ?
6)设置一个阈值,将相似度小于阈值的主题句进行约
减。??
7)按照主题句在原文中的顺序进行输出,最终产生较为
理想的文摘。??
3 实验及评价??
对自动文摘冗余信息的评价,目前还没有一种很好的方
法。文摘中冗余 信息消除的主要工作集中在对句子的相似度
的比较上,为了比较全面地评估本文算法,本文中提出冗余< br>率指标来衡量文摘的精度,它的公式定义如下:??
??冗余率=文摘中相似句子的总数文摘中句子的总数×
100%(11)?オ?
本文 采用通过多个人工专家分别打分,这里假设人工专
家冗余率为0%。本文采集了新浪网上2010年的1 2?B000多
个主题页面,其中包括体育、财经、环保、教育、房产、汽
车七个主题,采用机 械文摘的方法,形成原始文摘。分别以
本文方法与传统的词语共现的方法进行比较。比较结果如表
5所示。??

从表5中的实验数据可以看出,本文方法在很大程度上
降低了文摘的冗余率,从而提高了文摘的精度,因而本文中
的方法具备有一定的实用性。??
4 结语??
如何以最简练的句子的从文档中提取“主题思想”,已
经成 为了自动文摘需要迫切解决的一个关键技术。本文利用
主题词作为码字,通过构造词的语义距离来计算主 题句之间
的语义距离,从而得出主题句之间相似度;过滤掉相似度较
高的主题句,得到较为精炼 的文摘。但是,本文在计算词义
距离时,并没有考虑到《同义词词林》中的未登录词,这将
在一 定程度上影响词语相似度计算的准确性,在下一步的工
作中,将对未登录词的语义相似性做进一步的研究 。

?げ慰嘉南?:??

[1] 张奇,黄萱菁,吴立德.一种新的句子相似度度量及其
在文本自动摘要中的应用[J].中文信息学报, 2005, 19(2):
93-96.
??[2] 张其文,李明.文本主题的自 动提取方法研究与实
现[J].计算机工程与设计,2006,27(15):2743-2766.
??[3] 傅间莲, 陈群秀.基于规则和统计的中文自动文摘
系统[J].中文信息学报, 2006, 20(5): 10-16.
??[4] 基于文本聚类的自动文摘系统的研究与实现[J].
计算机工程, 2006, 32(4): 30-33.
??[5] 刘群,李素建.基于《知网》的词汇语义相似度的
计算[EBOL].[2011-02-15].
http:
ml.
??[6] 董振东, 董强. 知网[DBOL][.2011-02-15]. http:
.
??[7] 梅家驹, 竺一鸣, 高蕴琦,等.同义词词林[M]. 上
海: 上海辞书出版社, 1993.
??[8] LIN information??theoretic definition of
similarity Semantic distance in WordNet[EBOL][.2011-02-15].
http:www??~gawronm t_plusreadingssim_
readingssimilarity_lin_.
??[9] 周荫清.信息理论基础[M].北京:北京航天航空
大学出版社,1993.

国际经济与贸易就业-月落乌啼


国有经济-天津招生网


短歌行原文-郭的古义和今义


入射角-吉林华侨外国语大学


蒸馏水导电吗-stay过去分词


广东最好的大学-same


圆柱的表面积是什么-亡羊补牢的牢是什么意思


志愿填报系统入口-西安招生考试网



本文更新与2020-09-30 19:33,由作者提供,不代表本网站立场,转载请注明出处:https://www.bjmy2z.cn/gaokao/409082.html

自动文摘中的冗余句消除方法的相关文章

  • 爱心与尊严的高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊严高中作文题库

    1.关于爱心和尊严的作文八百字 我们不必怀疑富翁的捐助,毕竟普施爱心,善莫大焉,它是一 种美;我们也不必指责苛求受捐者的冷漠的拒绝,因为人总是有尊 严的,这也是一种美。

    小学作文
  • 爱心与尊重的作文题库

    1.作文关爱与尊重议论文 如果说没有爱就没有教育的话,那么离开了尊重同样也谈不上教育。 因为每一位孩子都渴望得到他人的尊重,尤其是教师的尊重。可是在现实生活中,不时会有

    小学作文
  • 爱心责任100字作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任心的作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文
  • 爱心责任作文题库

    1.有关爱心,坚持,责任的作文题库各三个 一则150字左右 (要事例) “胜不骄,败不馁”这句话我常听外婆说起。 这句名言的意思是说胜利了抄不骄傲,失败了不气馁。我真正体会到它

    小学作文