考重点大学一种抽取新闻网页结构化数据的方法_大学高校介绍,高考录取查询入口

-

2020年12月9日发(作者：何德庆)

第３Ｉ卷第６期

２００７年１１月

燕山大学学报

Ｊｏｕｒｎａｌ

ｏｆ

Ｙａｎｓｈａｎ

Ｕｎｉｖｅｒｓｉｔｙ

Ｖｂｌ．３１

ＮＯ．６

ＮＯＶ．２００７

文章编号：１

００７－７９１

Ｘ（２００７）０６－４８５－０４

一种抽取新闻网页结构化数据的方法

陈

爽１，李先国１，陈福２，李素３

工商大学计算机学院，北京１０００３７）

（１．西北工业大学计算机学院，陕西西安７１００７２；２．北京科技大学信息工程学院，北京１０００８３；３．北京

摘

要：根据统计结果，从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断，改进了传统

的ＤＯＭ模型，增加了层次与样式等属性作为噪声判断的依据，逐级降噪，并利用新闻的标题、时间等外显特

性，提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法，并使用这种方

法进行了大范围的效果验证。验证结果表明：这种方法信息抽取准确率高，对中英文新闻网页都有良好的适用性。

关键词：信息抽取；ＨＴＭＬ解析；ＤＯＭ；标签补偿；噪声标记

中图分类号：ＴＰ３１

１

文献标识码：Ａ

互联网是世界上最丰富和最密集的信息来源。

直接通过浏览器显示给读者，但是会对新闻的抽取

产生干扰。

据中国互联网络信息中心２００７年１月统计报告Ⅲ，

我国网页数量已经达到了４４．７亿页。

用户从网络中获取信息的最常用的途径就是

访问新闻网页。但实际的网页中却夹杂了大量的干

可见噪声通常包括导航区，超链接区，底部版

权信息区以及图片控件广告区等。

不可见噪声都是一些特定标签的集合，通常用

于在页面中实现一些特定的功能。另外ＨＴＭＬ中

的语法、注释都是不可见噪声。此类噪声都可以通

过预处理规则识别并去除。

２．１

扰用户正常阅读广告、链接。

本文讨论了一种ｗｅｂ信息抽取技术，目的就

是通过对新闻网页进行抽取，实现网页中的噪声与

正文信息相分离，得到包含标题、时ｆ．ｑ齐ｕ正文等内

容的结构化数据，同时要对中英文网页均适用。

网页的预处理

可以通过以下两个预处理规则来过滤网页中

１网页页面布局

从用户阅读新闻的目的出发，新闻网页中不但

包含了标题、时问、作者（信息来源）以及正文等

有实体意义的信号，还包含了导航区，超链连接区

（相关链接），底部版权信息区以及图片控件广告区

等噪声。１。噪声是用户不需要阅读的部分，与新闻

事件相关度过低或无关。

的不可见噪声和部分可见噪声。

１）预处理规则１：仅删除标签本身。

例如：Ｉｎｐｕｔ、Ｆｏｒｍ、Ｉｍｇ、Ｏｂｊｅｃｔ以及＜！一注

释一＞等都可以按此规则进行处理。

２）预处理规则２：删除标签本身以及其相应

的起始与结束标签所包含的ＨＴＭＬ文本。

例如：Ｓｃｒｉｐｔ标签需要按此规则处理。

２噪声的识别、标记与过滤

２．２识别可见噪声

根据网页空间的特征将噪声分为两类：可见噪

可见噪声的识别需要从网页空问的布局角度

声与不可见噪声。可见噪声是用户在通过浏览器浏

览的时候可以直接观察到的部分。不可见噪声不会

收稿日期：２００７—０９—１２

进行分析。网页空间被ＨＴＭＬ语法标签分成了一

基金项目：国家自然科学基金资助项目（Ｎｏ．６０６７３１６０）

作者简介：陈爽（１９８１?），男，山西长治人。硕士研究生。主要研究方向为知识发现与数据挖掘。

万

方数据

Ａ
）
２
（

４８６

燕山大学学报

２００７

个个相互嵌套又相互独立的区域。其中的～一个区域

是否是噪声，与其同一级的区域是否是噪声有很大

的关系。这样就需要解决两个方面的问题：

１）如何确定网页空问层次级别关系；

２）如何识别并标记某个区域内的可见噪声。

２．２．１

网页空间层次结构

网页空间层次级别关系主要是由ＨＴＭＬ语法

标签的嵌套结构决定。ＨＴＭＬ是一种非强格式的

标记语言，被用来结构化信息、描述文档的外观和

语义，允许存在不完整的语法标记。

对于语法不规范的网页需要通过缺失标签补

偿和冗余标签删除机制确定网页空间的层次。只处

理控制页面布局的标签，因为它们可能造成实体信

息污染，而用于控制字体颜色属性等的标签则无需

做处理。在处理过程中要保证不破坏原有层次结构

造成数据污染。

根据Ｗ３Ｃ组织的ＸＨＴＭＬ（ｔｈｅ

ｅｘｔｅｎｓｉｂｌｅ

ｈｙ—

ｐｅｒｔｅｘｔ

ｍａｒｋｕｐ

ｌａｎｇｕａｇｅ）”１规范，改进了传统的

ＤＯＭ（ｄｏｃｕｍｅｎｔｏｂｊｅｃｔｍｏｄｅｌ）Ｈ１模型，构造了一

种基于标签的层次与属性关系的多叉树结构ＬＡ—

ＤＯＭ（１ｅｖｅｌ— ａｔｔｒｉｂｕｔｅ
ＤＯＭ）模型，如图１所示。

图１
基于层次与属性的多叉树结构

Ｆｉｇ．１

Ｓｔｒｕｃｔｕｒｅ

ｏｆｍｕｌｔｉ—ｂｒａｎｃｈｅｓ

ｔｒｅｅ

ｂａｓｅｄ

ｏｎ

ｌｅｖｅｌ
ａｎｄ

ａｔ—

ｔｒｉｂｕｔｅ

图１显示了ＬＡ—ＤＯＭ树的生成过程，将

ＨＴＭＬ文本中用于页面布局控制显示的标签作为

子节点加入到树中，将非标签字符视为叶节点”１，

用于表现样式的部分标签和链接标签，作为叶节点

的属性。根据叶结点是否含有链接，可以分为链接

万
　
方数据

节点和非链接节点。遇到起始标签时，创建节点并

标记为未闭合标签，找到结束标签时，则回溯上一

级的节点，若匹配成功，则标记为闭合标签，否则

认为该节点的结束标签缺失，在当前结束标签前添

加缺失的结束标签，然后继续回溯，查找与当前结

束标签匹配的起始标签。若回溯到根节点还未找到

与当前结束标签匹配的起始标签，则认为当前结束

标签是冗余标签，将其删除。

２．２．２识别区域噪声

链接是网页中潜在的噪声，但是由于ＨＴＭＬ

中链接的使用非常自由，并非所有的链接文字都是

噪声。链接通常用于实现网页的导航，显示用户所

处的网页深度位置，以及帮助用户实现快速跳转到

其它页面等。

在遍历ＬＡ—ＤＯＭ树时，得到以下两个信噪比

计算公式：
 ‰ｉ蕊ＩＶＮｏＪ，，

（１）

。”ｒ
Ｇ户—粤争

ｈ。寸Ｎ‰ｋ

、。

式（１）中，Ｍ。定义为节点信噪比，是同一子

树内的非链接叶结点与叶结点总数的比；彳。。是链

接节点数，它的值等于子树内的全部链接节点的数

目；‰ 出是非链接节点数，它的值等于子树内不带

有链接属性的叶结点的数目。

式（２）中，Ｇ。，定义为字符信噪比，是子树内

的所有非链接字符数与全部可显示字符的比；彳肼

是链接字符数，它的值等于…１个链接叶节点中的文

本的长度；Ｍ卅是非链接字符数，它的值等于一个

非链接节点中的文本的长度。

将两式的计算结果与统计而得到的阈值作对

比，就可以判断ＨＴＭＬ中某一区域是否为链接型

噪声。再通过对ＬＡ—ＤＯＭ树进行后序遍历，就可

以实现全树的噪声判断与标记。

３正向抽取

正向抽取是通过已经确定的信息边界进行实

体信息定位，直接抽取得到结果。根据预处理以及

ＬＡ—ＤＯＭ树的区域噪声标记等两次降噪处理后

-

-

-

-

-

-

-

-

本文更新与2020-12-09 11:56，由作者提供，不代表本网站立场，转载请注明出处：https://bjmy2z.cn/daxue/23630.html

返回列表：大学

上一篇：传媒大学应届生个人自我简介自我鉴定个人简历求职简历范本模板p
下一篇：四川大学夏令营简章

当前您在：大学查询网 > 大学 >

考重点大学一种抽取新闻网页结构化数据的方法

-

-

-

-

-

-

-

-

-

返回列表：大学

一种抽取新闻网页结构化数据的方法的相关文章

重磅！华中科技大学2021各省高考录取分数线发布（截至7月29日）

35所部属大学，哪些会迁往雄安，哪些会留在北京？

任正非走访高校发声：求生欲使我们振奋，寻找自救道路！永不忌恨美国（附发言全文）

山西大学代表在第十五届电力人才就业论坛作主题发言

高考志愿解读北京邮电大学

聊城大学在援助喀什四县教师国家通用语言文字提升活动推进会上作典型经验发言

定了！广州大学2020年硕士

全了！大学新生入学物品

开学攻略 | 大一新生请注

艺考生准大一新生必看，

大一新生开学必备用品

上大学需要带什么？满满

当代大学生开学必备的东

@浙大宁理21级新生：这份

“西安大学”要来了？陕

喜报！陕西将迎来5所“大

学信网研究生招生管理平

412分考生被厦门大学录取

42所一流大学2021年研究生

希航教育获得思特雅大学

可爱女孩杨倩：在清华只

清华大学校花走红，身材

清华美女“校花”，不仅

清华为女中学生专设数学

当前您在： 大学查询网 > 大学 >

-

-

-

-

-

-

-

-

-

一种抽取新闻网页结构化数据的方法的相关文章

当前您在：大学查询网 > 大学 >